切换主题
模型参数
对大多数用户来说,先会调两个参数就够了:
- 温度(Temperature)
- 最大长度(Max Tokens)
其他参数如果你不熟,先保持默认值或 Auto,通常更省事。
核心参数一览
| 参数名称 | 核心作用 | 典型应用建议 |
|---|---|---|
| 流式输出 | 决定内容是“逐字蹦出”还是“打包发送” | 追求聊天体感时建议开启 |
| Temperature | 控制回复的随机性与创造力 | 逻辑任务设低,创意任务设高 |
| Max Tokens | 设定模型单次输出的上限 | 防止超长回复导致成本失控或中途截断 |
| Top-P / Top-K | 控制候选词的选择范围 | 进阶微调时再用 |
| 重复 / 频率惩罚 | 抑制模型变成“复读机” | 角色扮演或长文生成时可尝试调整 |
流式输出(Stream)
流式输出是现代 AI 应用里最常见的交互方式。
- 开启:模型像打字一样实时返回结果,等待体感更轻
- 关闭:模型会在内容全部生成后再统一返回,等待时间更长
什么时候值得切换?
如果你遇到“一直转圈但不报错”,或者怀疑是网络链路、流控或策略问题,切换一次流式开关,往往能更快判断问题出在哪。
温度(Temperature)
这是最常用、也最值得先理解的参数。它直接影响模型在预测下一个词时的“发散程度”。
| 温度区间 | 核心表现 | 典型场景 |
|---|---|---|
| 低温度 | 更保守、更稳定 | 代码、数学、事实问答、格式化转换 |
| 中温度 | 更平衡、更自然 | 日常聊天、摘要、润色、普通问答 |
| 高温度 | 更发散、更多变 | 创意写作、灵感脑暴、开放式剧情 |
关于数值范围
不同模型对温度区间的定义并不完全一致。有的范围是 0 - 1,有的则是 0 - 2。
平台会对不同模型做兼容处理。
如果你主要做角色扮演,通常不建议一上来就把温度拉得过高;模型一旦开始发散,后面会更难控。
最大长度(Max Tokens)
它决定模型单次最多能输出多少内容。
- 设置太小:回复会戛然而止,完成原因通常是
length - 设置太大:等待更久;如果模型失控,也会消耗更多 Token
- 设置超出支持范围:部分模型会直接报错
什么时候该调大?
- 你正在处理长任务、长文档或复杂代码设计
- 你希望模型生成更长的内容
- 你需要更完整的解释
- 你频繁遇到完成原因为
length
提示
如果没有明确需求,保持默认 Auto 往往更合适。
惩罚参数(Penalties)
当模型陷入“循环套话”或者“口癖太重”时,这两项值得优先尝试。
| 参数 | 惩罚对象 | 解决什么问题 |
|---|---|---|
| 重复惩罚(Presence) | 只要词出现过就惩罚 | 减少整段或整句反复出现 |
| 频率惩罚(Frequency) | 根据词出现次数加倍惩罚 | 减少特定口癖出现过多 |
如果你没有遇到明显复读问题,这两项通常不需要主动去动。
Top-P 与 Top-K
这两个参数决定了模型从多少个候选词中进行筛选,可以理解为温度的辅助约束。
Top-P(核采样)
模型只在累计概率达到 P 的候选词池中选词。
- 值越小:候选范围越窄,回复越像“标准答案”
- 值越大:候选范围越宽,回复越多样
Top-K
模型每一步只看概率最高的前 K 个候选词。
这是一个更硬性的限制。很多主流 API 已经逐渐淡化这个参数,更多见于 Claude 或开源模型生态。
调优经验
对绝大多数场景来说,只调温度就够了。如果要做更细的微调,建议固定其中一个,只调另一个。
遇到异常时,先别急着怪参数
有些问题看起来像参数问题,其实不是:
- 回复慢,可能是设定较多或上下文太长
- 花费高,可能是提示词和历史消息过重
- 空回复,可能是逻辑混乱、上下文冲突或提供商策略导致
- 同模型体感变化,可能是来源线路不同
结语
参数配置能让模型锦上添花,但**提示词(Prompt)**才是决定回复质量的地基。
如果你还不清楚其他参数的副作用,优先只调 温度 和 Max Tokens,其他参数先保持默认值或 Auto。