模型概念

对大多数用户来说，不需要一开始就把所有名词都研究透。

先搞懂这 5 个词，已经足够你做大部分选择：

Token
上下文
输入价格
输出价格
完成原因

本页的目标，是帮你建立一套直觉，让你看到模型参数表时，能快速判断它适不适合自己。

核心概念一览

概念	形象理解	它会影响什么
Token	文本的“计量单位”	计费基础、上下文占用额度
上下文（Context）	模型的“短期记忆”范围	决定模型能“读”多长的信息
输入价格（Input）	你喂给模型的内容费用	历史越长、设定越重，成本越高
输出价格（Output）	模型写给你的内容费用	回复越长，费用通常越高
推理（Reasoning）	模型“思考”的过程	决定复杂逻辑、数学、代码能力
延迟（Latency）	首字返回的等待时间	影响“出字快不快”
吞吐（Throughput）	单位时间内生成的字数	影响回复过程是否流畅
知识截止（Cutoff）	模型的“记忆终点”	决定它知不知道最近发生的事
完成原因（Finish Reason）	回复停止的信号	用于排查截断、过滤和异常中止

先理解最常用的几个

1. Token：计费与容量的起点

你可以粗略把它理解成“文本长度的计费单位”。

英文：1 token 大约等于 0.75 个单词
中文：1 token 大约等于 0.6 到 1.5 个汉字，具体取决于分词方式

为什么要注意它？

它不只是成本问题。每个模型都有上下文上限，例如 128k。如果你塞进去的历史、设定和输入加起来超过这个值，模型就会“忘掉”前面的内容。

2. 上下文窗口（Context Window）

上下文不是无限记忆。

对话进行得越久，模型每次回复前需要读的内容就越多。随着历史消息不断累积，系统通常会通过“截断”或“总结”来腾出空间。

常见误区

上下文窗口（能读多少）不等于最大输出限制（能写多少）。

一个支持 128k 上下文的模型，单次回复可能最多只能输出 4k Token。如果你让它写一篇很长的内容，它仍然可能因为输出限制而中断。

3. 输入价格和输出价格

模型计费一般不是“只看一句话多少钱”，而是同时看输入和输出。

输入价格：你发给模型的消息、历史记录、角色设定、世界书等
输出价格：模型回给你的内容

多数模型里，输出通常比输入更贵。

这也是为什么你明明只说了一句话，费用却不一定低，因为模型在回复前，往往已经先读了一长串上下文。

4. 完成原因（Finish Reason）

排查模型为什么“话只说了一半”时，这个字段很重要：

stop：正常结束，模型说完了
length：达到最大输出 Token 限制，被截断了
content_filter：触发安全策略或上游限制，被中断了

如果你经常遇到回复突然停住、空回复或半截回复，先去看这个字段，而不是先怀疑模型“坏了”。

5. 知识截止日期（Knowledge Cutoff）

模型不是搜索引擎，它的“知识”来自训练数据的截止点。

如果一个模型的 Cutoff 是 2023-10，它通常不会知道 2024 年 之后发生的新事件
如果你需要实时信息，通常要配合联网搜索或检索能力

模型类型：常见能力分层

目前市面上的模型，大致可以分成这几类：

指令 / 对话模型（Instruct / Chat）：最常见，擅长理解指令和多轮对话
推理模型（Reasoning / o1 / R1）：更擅长分步推导，适合高难度数学、逻辑和代码问题
多模态模型（Multimodal / Vision）：除了文字，还能理解图片、视频或音频

如何快速判断自己该看什么模型？

理解以上概念后，可以按这个简单路径判断：

追求响应速度：看轻量级 / Flash 系列模型
处理超长文档或长代码：看长上下文模型
解决复杂逻辑或 Bug 修复：看推理模型
读取图片或 UI 设计稿：看多模态模型

如果你已经理解这些基础概念，可以继续看模型参数和模型计费。

模型概念 ​

核心概念一览 ​

先理解最常用的几个 ​

1. Token：计费与容量的起点 ​

2. 上下文窗口（Context Window） ​

3. 输入价格和输出价格 ​

4. 完成原因（Finish Reason） ​

5. 知识截止日期（Knowledge Cutoff） ​

模型类型：常见能力分层 ​

如何快速判断自己该看什么模型？ ​