Skip to content

模型参数

对大多数用户来说,先会调两个参数就够了:

  • 温度(Temperature)
  • 最大长度(Max Tokens)

其他参数如果你不熟,先保持默认值或 Auto,通常更省事。

核心参数一览

参数名称核心作用典型应用建议
流式输出决定内容是“逐字蹦出”还是“打包发送”追求聊天体感时建议开启
Temperature控制回复的随机性与创造力逻辑任务设低,创意任务设高
Max Tokens设定模型单次输出的上限防止超长回复导致成本失控或中途截断
Top-P / Top-K控制候选词的选择范围进阶微调时再用
重复 / 频率惩罚抑制模型变成“复读机”角色扮演或长文生成时可尝试调整

流式输出(Stream)

流式输出是现代 AI 应用里最常见的交互方式。

  • 开启:模型像打字一样实时返回结果,等待体感更轻
  • 关闭:模型会在内容全部生成后再统一返回,等待时间更长

什么时候值得切换?

如果你遇到“一直转圈但不报错”,或者怀疑是网络链路、流控或策略问题,切换一次流式开关,往往能更快判断问题出在哪。

温度(Temperature)

这是最常用、也最值得先理解的参数。它直接影响模型在预测下一个词时的“发散程度”。

温度区间核心表现典型场景
低温度更保守、更稳定代码、数学、事实问答、格式化转换
中温度更平衡、更自然日常聊天、摘要、润色、普通问答
高温度更发散、更多变创意写作、灵感脑暴、开放式剧情

关于数值范围

不同模型对温度区间的定义并不完全一致。有的范围是 0 - 1,有的则是 0 - 2

平台会对不同模型做兼容处理。

如果你主要做角色扮演,通常不建议一上来就把温度拉得过高;模型一旦开始发散,后面会更难控。

最大长度(Max Tokens)

它决定模型单次最多能输出多少内容。

  • 设置太小:回复会戛然而止,完成原因通常是 length
  • 设置太大:等待更久;如果模型失控,也会消耗更多 Token
  • 设置超出支持范围:部分模型会直接报错

什么时候该调大?

  • 你正在处理长任务、长文档或复杂代码设计
  • 你希望模型生成更长的内容
  • 你需要更完整的解释
  • 你频繁遇到完成原因为 length

提示

如果没有明确需求,保持默认 Auto 往往更合适。

惩罚参数(Penalties)

当模型陷入“循环套话”或者“口癖太重”时,这两项值得优先尝试。

参数惩罚对象解决什么问题
重复惩罚(Presence)只要词出现过就惩罚减少整段或整句反复出现
频率惩罚(Frequency)根据词出现次数加倍惩罚减少特定口癖出现过多

如果你没有遇到明显复读问题,这两项通常不需要主动去动。

Top-P 与 Top-K

这两个参数决定了模型从多少个候选词中进行筛选,可以理解为温度的辅助约束。

Top-P(核采样)

模型只在累计概率达到 P 的候选词池中选词。

  • 值越小:候选范围越窄,回复越像“标准答案”
  • 值越大:候选范围越宽,回复越多样

Top-K

模型每一步只看概率最高的前 K 个候选词。

这是一个更硬性的限制。很多主流 API 已经逐渐淡化这个参数,更多见于 Claude 或开源模型生态。

调优经验

对绝大多数场景来说,只调温度就够了。如果要做更细的微调,建议固定其中一个,只调另一个。

遇到异常时,先别急着怪参数

有些问题看起来像参数问题,其实不是:

  • 回复慢,可能是设定较多或上下文太长
  • 花费高,可能是提示词和历史消息过重
  • 空回复,可能是逻辑混乱、上下文冲突或提供商策略导致
  • 同模型体感变化,可能是来源线路不同

结语

参数配置能让模型锦上添花,但**提示词(Prompt)**才是决定回复质量的地基。

如果你还不清楚其他参数的副作用,优先只调 温度Max Tokens,其他参数先保持默认值或 Auto

火狐AI 产品文档