Skip to content

模型概念

对大多数用户来说,不需要一开始就把所有名词都研究透。

先搞懂这 5 个词,已经足够你做大部分选择:

  • Token
  • 上下文
  • 输入价格
  • 输出价格
  • 完成原因

本页的目标,是帮你建立一套直觉,让你看到模型参数表时,能快速判断它适不适合自己。

核心概念一览

概念形象理解它会影响什么
Token文本的“计量单位”计费基础、上下文占用额度
上下文(Context)模型的“短期记忆”范围决定模型能“读”多长的信息
输入价格(Input)你喂给模型的内容费用历史越长、设定越重,成本越高
输出价格(Output)模型写给你的内容费用回复越长,费用通常越高
推理(Reasoning)模型“思考”的过程决定复杂逻辑、数学、代码能力
延迟(Latency)首字返回的等待时间影响“出字快不快”
吞吐(Throughput)单位时间内生成的字数影响回复过程是否流畅
知识截止(Cutoff)模型的“记忆终点”决定它知不知道最近发生的事
完成原因(Finish Reason)回复停止的信号用于排查截断、过滤和异常中止

先理解最常用的几个

1. Token:计费与容量的起点

你可以粗略把它理解成“文本长度的计费单位”。

  • 英文1 token 大约等于 0.75 个单词
  • 中文1 token 大约等于 0.6 到 1.5 个汉字,具体取决于分词方式

为什么要注意它?

它不只是成本问题。每个模型都有上下文上限,例如 128k。如果你塞进去的历史、设定和输入加起来超过这个值,模型就会“忘掉”前面的内容。

2. 上下文窗口(Context Window)

上下文不是无限记忆。

对话进行得越久,模型每次回复前需要读的内容就越多。随着历史消息不断累积,系统通常会通过“截断”或“总结”来腾出空间。

常见误区

上下文窗口(能读多少)不等于最大输出限制(能写多少)。

一个支持 128k 上下文的模型,单次回复可能最多只能输出 4k Token。如果你让它写一篇很长的内容,它仍然可能因为输出限制而中断。

3. 输入价格和输出价格

模型计费一般不是“只看一句话多少钱”,而是同时看输入和输出。

  • 输入价格:你发给模型的消息、历史记录、角色设定、世界书等
  • 输出价格:模型回给你的内容

多数模型里,输出通常比输入更贵

这也是为什么你明明只说了一句话,费用却不一定低,因为模型在回复前,往往已经先读了一长串上下文。

4. 完成原因(Finish Reason)

排查模型为什么“话只说了一半”时,这个字段很重要:

  • stop:正常结束,模型说完了
  • length:达到最大输出 Token 限制,被截断了
  • content_filter:触发安全策略或上游限制,被中断了

如果你经常遇到回复突然停住、空回复或半截回复,先去看这个字段,而不是先怀疑模型“坏了”。

5. 知识截止日期(Knowledge Cutoff)

模型不是搜索引擎,它的“知识”来自训练数据的截止点。

  • 如果一个模型的 Cutoff 是 2023-10,它通常不会知道 2024 年 之后发生的新事件
  • 如果你需要实时信息,通常要配合联网搜索或检索能力

模型类型:常见能力分层

目前市面上的模型,大致可以分成这几类:

  • 指令 / 对话模型(Instruct / Chat):最常见,擅长理解指令和多轮对话
  • 推理模型(Reasoning / o1 / R1):更擅长分步推导,适合高难度数学、逻辑和代码问题
  • 多模态模型(Multimodal / Vision):除了文字,还能理解图片、视频或音频

如何快速判断自己该看什么模型?

理解以上概念后,可以按这个简单路径判断:

  1. 追求响应速度:看轻量级 / Flash 系列模型
  2. 处理超长文档或长代码:看长上下文模型
  3. 解决复杂逻辑或 Bug 修复:看推理模型
  4. 读取图片或 UI 设计稿:看多模态模型

如果你已经理解这些基础概念,可以继续看 模型参数模型计费

火狐AI 产品文档