模型计费

模型计费并不只有“单价”一个维度。在实际使用中，费用波动往往来自上下文堆叠，以及对计费构成的忽视。

费用是怎么算的？

大多数文本模型的费用逻辑都可以简化成一个公式：

总费用 = (输入 Token × 输入单价) + (输出 Token × 输出单价) + 其他额外费用

核心计费项

项目	触发场景	理解
输入价格（Input）	你发送的消息、历史记录和设定	历史越长、设定越厚，每一轮起步价越高
输出价格（Output）	模型生成并返回的内容	输出单价通常比输入单价贵 `2-8` 倍
缓存创建（Write）	为历史消息创建缓存，如 `5m / 1h`	创建缓存的价格通常会按时长区分
缓存读取（Cache）	命中重复上下文，如长设定	命中缓存后，重复部分通常更便宜
阶梯计费	上下文达到特定长度后	长对话成本可能明显上升
能力附加费	开启联网搜索、图片识别、长文档解析	部分模型会按次或按功能额外计费

计算实例

假设某模型的计费标准为：

输入：1.0 积分 / 1M Tokens
输出：4.0 积分 / 1M Tokens

单次对话消耗：

你发送了 2,000 Tokens 的内容（含背景设定）
模型回复了 1,000 Tokens 的内容

那么费用大约是：

输入费用：2000 / 1,000,000 × 1 = 0.002 积分
输出费用：1000 / 1,000,000 × 4 = 0.004 积分
总费用：0.006 积分

提示

上面只是演示算法，不代表任何具体模型的真实价格。实际价格请以聊天页中的模型说明为准。

为什么“只说一句”也可能不便宜？

这是新手最常见的困惑。

模型在理解“这一句话”之前，通常还要先读完下面这些内容：

系统提示词：模型扮演角色的基本准则
角色卡 / 世界书：人物背景和世界观设定
上下文历史：之前的多轮聊天记录
记忆模块：系统额外检索出的相关记忆片段

结论

所以你明明只发了一句很短的话，费用却不一定低，因为模型实际看到的，可能是一整串历史和设定。

怎么更省？

控制历史长度：定期清理不重要的历史记录，避免上下文无限滚雪球
精简设定：检查角色卡或世界书，删掉冗余描述，合并重复指令
隐藏记忆：把不需要发送给模型、但想保留在对话里的消息设置为隐藏记忆
永久记忆：定期让模型归纳最近对话，再把总结保存成永久记忆
按次计费模型：如果是超长上下文场景，优先选择按次计费模型，避免 Token 爆炸。

花费异常自查清单

如果发现账单异常，请按顺序检查：

Token 明细：查看消息详情，确认 Token 统计是否异常
世界书 / 设定：是否无意中开启了过于庞大的背景资料
历史轮次：当前对话是否已经持续了很多轮
Max Tokens：是否设置过高，导致模型返回过多内容
模型类型：是否用了输出单价更高、或附加能力更多的模型

常见问题

为什么同一个模型，价格差得这么多？

本质上并不是模型能力“缩水”，而是计费规则和接入策略不同：

接入来源不同
结算方式不同
企业合作折扣不同
是否有平台补贴
是否带缓存、按次计费或其他内部策略

如果你在官方模型中看到 官方、优选、渠道 三种标签，这种差异通常会更明显。

为什么同一个模型，体验也会不一样？

常见原因有：

接入来源是否相同
当前算力是否充足
参数是否调得过激
上下文是否已经很长

先不要急着判断“模型变差了”，先看是不是线路、时间段或上下文本身变了。

提示

如果遇到模型输出异常导致的大额扣费，请先停止继续对话，并按上面的清单自查。仍有疑问，再联系官方反馈。

模型计费 ​

费用是怎么算的？ ​

核心计费项 ​

计算实例 ​

为什么“只说一句”也可能不便宜？ ​

怎么更省？ ​

花费异常自查清单 ​

常见问题 ​

为什么同一个模型，价格差得这么多？ ​

为什么同一个模型，体验也会不一样？ ​