切换主题
模型概念
对大多数用户来说,不需要一开始就把所有名词都研究透。
先搞懂这 5 个词,已经足够你做大部分选择:
- Token
- 上下文
- 输入价格
- 输出价格
- 完成原因
本页的目标,是帮你建立一套直觉,让你看到模型参数表时,能快速判断它适不适合自己。
核心概念一览
| 概念 | 形象理解 | 它会影响什么 |
|---|---|---|
| Token | 文本的“计量单位” | 计费基础、上下文占用额度 |
| 上下文(Context) | 模型的“短期记忆”范围 | 决定模型能“读”多长的信息 |
| 输入价格(Input) | 你喂给模型的内容费用 | 历史越长、设定越重,成本越高 |
| 输出价格(Output) | 模型写给你的内容费用 | 回复越长,费用通常越高 |
| 推理(Reasoning) | 模型“思考”的过程 | 决定复杂逻辑、数学、代码能力 |
| 延迟(Latency) | 首字返回的等待时间 | 影响“出字快不快” |
| 吞吐(Throughput) | 单位时间内生成的字数 | 影响回复过程是否流畅 |
| 知识截止(Cutoff) | 模型的“记忆终点” | 决定它知不知道最近发生的事 |
| 完成原因(Finish Reason) | 回复停止的信号 | 用于排查截断、过滤和异常中止 |
先理解最常用的几个
1. Token:计费与容量的起点
你可以粗略把它理解成“文本长度的计费单位”。
- 英文:
1 token大约等于0.75 个单词 - 中文:
1 token大约等于0.6 到 1.5 个汉字,具体取决于分词方式
为什么要注意它?
它不只是成本问题。每个模型都有上下文上限,例如 128k。如果你塞进去的历史、设定和输入加起来超过这个值,模型就会“忘掉”前面的内容。
2. 上下文窗口(Context Window)
上下文不是无限记忆。
对话进行得越久,模型每次回复前需要读的内容就越多。随着历史消息不断累积,系统通常会通过“截断”或“总结”来腾出空间。
常见误区
上下文窗口(能读多少)不等于最大输出限制(能写多少)。
一个支持 128k 上下文的模型,单次回复可能最多只能输出 4k Token。如果你让它写一篇很长的内容,它仍然可能因为输出限制而中断。
3. 输入价格和输出价格
模型计费一般不是“只看一句话多少钱”,而是同时看输入和输出。
- 输入价格:你发给模型的消息、历史记录、角色设定、世界书等
- 输出价格:模型回给你的内容
多数模型里,输出通常比输入更贵。
这也是为什么你明明只说了一句话,费用却不一定低,因为模型在回复前,往往已经先读了一长串上下文。
4. 完成原因(Finish Reason)
排查模型为什么“话只说了一半”时,这个字段很重要:
stop:正常结束,模型说完了length:达到最大输出 Token 限制,被截断了content_filter:触发安全策略或上游限制,被中断了
如果你经常遇到回复突然停住、空回复或半截回复,先去看这个字段,而不是先怀疑模型“坏了”。
5. 知识截止日期(Knowledge Cutoff)
模型不是搜索引擎,它的“知识”来自训练数据的截止点。
- 如果一个模型的 Cutoff 是
2023-10,它通常不会知道2024 年之后发生的新事件 - 如果你需要实时信息,通常要配合联网搜索或检索能力
模型类型:常见能力分层
目前市面上的模型,大致可以分成这几类:
- 指令 / 对话模型(Instruct / Chat):最常见,擅长理解指令和多轮对话
- 推理模型(Reasoning / o1 / R1):更擅长分步推导,适合高难度数学、逻辑和代码问题
- 多模态模型(Multimodal / Vision):除了文字,还能理解图片、视频或音频
如何快速判断自己该看什么模型?
理解以上概念后,可以按这个简单路径判断:
- 追求响应速度:看轻量级 / Flash 系列模型
- 处理超长文档或长代码:看长上下文模型
- 解决复杂逻辑或 Bug 修复:看推理模型
- 读取图片或 UI 设计稿:看多模态模型