模型参数

对大多数用户来说，先会调两个参数就够了：

温度（Temperature）
最大长度（Max Tokens）

其他参数如果你不熟，先保持默认值或 Auto，通常更省事。

核心参数一览

参数名称	核心作用	典型应用建议
流式输出	决定内容是“逐字蹦出”还是“打包发送”	追求聊天体感时建议开启
Temperature	控制回复的随机性与创造力	逻辑任务设低，创意任务设高
Max Tokens	设定模型单次输出的上限	防止超长回复导致成本失控或中途截断
Top-P / Top-K	控制候选词的选择范围	进阶微调时再用
重复 / 频率惩罚	抑制模型变成“复读机”	角色扮演或长文生成时可尝试调整

流式输出（Stream）

流式输出是现代 AI 应用里最常见的交互方式。

开启：模型像打字一样实时返回结果，等待体感更轻
关闭：模型会在内容全部生成后再统一返回，等待时间更长

什么时候值得切换？

如果你遇到“一直转圈但不报错”，或者怀疑是网络链路、流控或策略问题，切换一次流式开关，往往能更快判断问题出在哪。

温度（Temperature）

这是最常用、也最值得先理解的参数。它直接影响模型在预测下一个词时的“发散程度”。

温度区间	核心表现	典型场景
低温度	更保守、更稳定	代码、数学、事实问答、格式化转换
中温度	更平衡、更自然	日常聊天、摘要、润色、普通问答
高温度	更发散、更多变	创意写作、灵感脑暴、开放式剧情

关于数值范围

不同模型对温度区间的定义并不完全一致。有的范围是 0 - 1，有的则是 0 - 2。

平台会对不同模型做兼容处理。

如果你主要做角色扮演，通常不建议一上来就把温度拉得过高；模型一旦开始发散，后面会更难控。

最大长度（Max Tokens）

它决定模型单次最多能输出多少内容。

设置太小：回复会戛然而止，完成原因通常是 length
设置太大：等待更久；如果模型失控，也会消耗更多 Token
设置超出支持范围：部分模型会直接报错

什么时候该调大？

你正在处理长任务、长文档或复杂代码设计
你希望模型生成更长的内容
你需要更完整的解释
你频繁遇到完成原因为 length

提示

如果没有明确需求，保持默认 Auto 往往更合适。

惩罚参数（Penalties）

当模型陷入“循环套话”或者“口癖太重”时，这两项值得优先尝试。

参数	惩罚对象	解决什么问题
重复惩罚（Presence）	只要词出现过就惩罚	减少整段或整句反复出现
频率惩罚（Frequency）	根据词出现次数加倍惩罚	减少特定口癖出现过多

如果你没有遇到明显复读问题，这两项通常不需要主动去动。

Top-P 与 Top-K

这两个参数决定了模型从多少个候选词中进行筛选，可以理解为温度的辅助约束。

Top-P（核采样）

模型只在累计概率达到 P 的候选词池中选词。

值越小：候选范围越窄，回复越像“标准答案”
值越大：候选范围越宽，回复越多样

Top-K

模型每一步只看概率最高的前 K 个候选词。

这是一个更硬性的限制。很多主流 API 已经逐渐淡化这个参数，更多见于 Claude 或开源模型生态。

调优经验

对绝大多数场景来说，只调温度就够了。如果要做更细的微调，建议固定其中一个，只调另一个。

遇到异常时，先别急着怪参数

有些问题看起来像参数问题，其实不是：

回复慢，可能是设定较多或上下文太长
花费高，可能是提示词和历史消息过重
空回复，可能是逻辑混乱、上下文冲突或提供商策略导致
同模型体感变化，可能是来源线路不同

结语

参数配置能让模型锦上添花，但**提示词（Prompt）**才是决定回复质量的地基。

如果你还不清楚其他参数的副作用，优先只调 温度 和 Max Tokens，其他参数先保持默认值或 Auto。

模型参数 ​

核心参数一览 ​

流式输出（Stream） ​

温度（Temperature） ​

最大长度（Max Tokens） ​

惩罚参数（Penalties） ​

Top-P 与 Top-K ​

Top-P（核采样） ​

Top-K ​

遇到异常时，先别急着怪参数 ​