Skip to content

模型计费

模型计费并不只有“单价”一个维度。在实际使用中,费用波动往往来自上下文堆叠,以及对计费构成的忽视。

费用是怎么算的?

大多数文本模型的费用逻辑都可以简化成一个公式:

总费用 = (输入 Token × 输入单价) + (输出 Token × 输出单价) + 其他额外费用

核心计费项

项目触发场景理解
输入价格(Input)你发送的消息、历史记录和设定历史越长、设定越厚,每一轮起步价越高
输出价格(Output)模型生成并返回的内容输出单价通常比输入单价贵 2-8
缓存创建(Write)为历史消息创建缓存,如 5m / 1h创建缓存的价格通常会按时长区分
缓存读取(Cache)命中重复上下文,如长设定命中缓存后,重复部分通常更便宜
阶梯计费上下文达到特定长度后长对话成本可能明显上升
能力附加费开启联网搜索、图片识别、长文档解析部分模型会按次或按功能额外计费

计算实例

假设某模型的计费标准为:

  • 输入1.0 积分 / 1M Tokens
  • 输出4.0 积分 / 1M Tokens

单次对话消耗:

  • 你发送了 2,000 Tokens 的内容(含背景设定)
  • 模型回复了 1,000 Tokens 的内容

那么费用大约是:

  • 输入费用:2000 / 1,000,000 × 1 = 0.002 积分
  • 输出费用:1000 / 1,000,000 × 4 = 0.004 积分
  • 总费用:0.006 积分

提示

上面只是演示算法,不代表任何具体模型的真实价格。实际价格请以聊天页中的模型说明为准。

为什么“只说一句”也可能不便宜?

这是新手最常见的困惑。

模型在理解“这一句话”之前,通常还要先读完下面这些内容:

  1. 系统提示词:模型扮演角色的基本准则
  2. 角色卡 / 世界书:人物背景和世界观设定
  3. 上下文历史:之前的多轮聊天记录
  4. 记忆模块:系统额外检索出的相关记忆片段

结论

所以你明明只发了一句很短的话,费用却不一定低,因为模型实际看到的,可能是一整串历史和设定。

怎么更省?

  • 控制历史长度:定期清理不重要的历史记录,避免上下文无限滚雪球
  • 精简设定:检查角色卡或世界书,删掉冗余描述,合并重复指令
  • 隐藏记忆:把不需要发送给模型、但想保留在对话里的消息设置为隐藏记忆
  • 永久记忆:定期让模型归纳最近对话,再把总结保存成永久记忆
  • 按次计费模型:如果是超长上下文场景,优先选择按次计费模型,避免 Token 爆炸。

花费异常自查清单

如果发现账单异常,请按顺序检查:

  • Token 明细:查看消息详情,确认 Token 统计是否异常
  • 世界书 / 设定:是否无意中开启了过于庞大的背景资料
  • 历史轮次:当前对话是否已经持续了很多轮
  • Max Tokens:是否设置过高,导致模型返回过多内容
  • 模型类型:是否用了输出单价更高、或附加能力更多的模型

常见问题

为什么同一个模型,价格差得这么多?

本质上并不是模型能力“缩水”,而是计费规则和接入策略不同:

  • 接入来源不同
  • 结算方式不同
  • 企业合作折扣不同
  • 是否有平台补贴
  • 是否带缓存、按次计费或其他内部策略

如果你在 官方模型 中看到 官方优选渠道 三种标签,这种差异通常会更明显。

为什么同一个模型,体验也会不一样?

常见原因有:

  • 接入来源是否相同
  • 当前算力是否充足
  • 参数是否调得过激
  • 上下文是否已经很长

先不要急着判断“模型变差了”,先看是不是线路、时间段或上下文本身变了。

提示

如果遇到模型输出异常导致的大额扣费,请先停止继续对话,并按上面的清单自查。仍有疑问,再联系官方反馈。

火狐AI 产品文档