切换主题
模型计费
模型计费并不只有“单价”一个维度。在实际使用中,费用波动往往来自上下文堆叠,以及对计费构成的忽视。
费用是怎么算的?
大多数文本模型的费用逻辑都可以简化成一个公式:
总费用 = (输入 Token × 输入单价) + (输出 Token × 输出单价) + 其他额外费用
核心计费项
| 项目 | 触发场景 | 理解 |
|---|---|---|
| 输入价格(Input) | 你发送的消息、历史记录和设定 | 历史越长、设定越厚,每一轮起步价越高 |
| 输出价格(Output) | 模型生成并返回的内容 | 输出单价通常比输入单价贵 2-8 倍 |
| 缓存创建(Write) | 为历史消息创建缓存,如 5m / 1h | 创建缓存的价格通常会按时长区分 |
| 缓存读取(Cache) | 命中重复上下文,如长设定 | 命中缓存后,重复部分通常更便宜 |
| 阶梯计费 | 上下文达到特定长度后 | 长对话成本可能明显上升 |
| 能力附加费 | 开启联网搜索、图片识别、长文档解析 | 部分模型会按次或按功能额外计费 |
计算实例
假设某模型的计费标准为:
- 输入:
1.0 积分 / 1M Tokens - 输出:
4.0 积分 / 1M Tokens
单次对话消耗:
- 你发送了
2,000 Tokens的内容(含背景设定) - 模型回复了
1,000 Tokens的内容
那么费用大约是:
- 输入费用:
2000 / 1,000,000 × 1 = 0.002 积分 - 输出费用:
1000 / 1,000,000 × 4 = 0.004 积分 - 总费用:
0.006 积分
提示
上面只是演示算法,不代表任何具体模型的真实价格。实际价格请以聊天页中的模型说明为准。
为什么“只说一句”也可能不便宜?
这是新手最常见的困惑。
模型在理解“这一句话”之前,通常还要先读完下面这些内容:
- 系统提示词:模型扮演角色的基本准则
- 角色卡 / 世界书:人物背景和世界观设定
- 上下文历史:之前的多轮聊天记录
- 记忆模块:系统额外检索出的相关记忆片段
结论
所以你明明只发了一句很短的话,费用却不一定低,因为模型实际看到的,可能是一整串历史和设定。
怎么更省?
- 控制历史长度:定期清理不重要的历史记录,避免上下文无限滚雪球
- 精简设定:检查角色卡或世界书,删掉冗余描述,合并重复指令
- 隐藏记忆:把不需要发送给模型、但想保留在对话里的消息设置为隐藏记忆
- 永久记忆:定期让模型归纳最近对话,再把总结保存成永久记忆
- 按次计费模型:如果是超长上下文场景,优先选择按次计费模型,避免 Token 爆炸。
花费异常自查清单
如果发现账单异常,请按顺序检查:
- Token 明细:查看消息详情,确认 Token 统计是否异常
- 世界书 / 设定:是否无意中开启了过于庞大的背景资料
- 历史轮次:当前对话是否已经持续了很多轮
- Max Tokens:是否设置过高,导致模型返回过多内容
- 模型类型:是否用了输出单价更高、或附加能力更多的模型
常见问题
为什么同一个模型,价格差得这么多?
本质上并不是模型能力“缩水”,而是计费规则和接入策略不同:
- 接入来源不同
- 结算方式不同
- 企业合作折扣不同
- 是否有平台补贴
- 是否带缓存、按次计费或其他内部策略
如果你在 官方模型 中看到 官方、优选、渠道 三种标签,这种差异通常会更明显。
为什么同一个模型,体验也会不一样?
常见原因有:
- 接入来源是否相同
- 当前算力是否充足
- 参数是否调得过激
- 上下文是否已经很长
先不要急着判断“模型变差了”,先看是不是线路、时间段或上下文本身变了。
提示
如果遇到模型输出异常导致的大额扣费,请先停止继续对话,并按上面的清单自查。仍有疑问,再联系官方反馈。