Top-p

为什么需要了解 Top-p

模型生成每个词时，实际上是从所有可能的词里按概率"抽样"出来的。

问题是：概率分布很长，"最可能的词"可能占 80%，"第二可能的"占 10%，剩下的加起来才 10%。如果每次都从全部词里抽，偶尔会抽到那些很低概率的长尾词，导致输出跑偏。

Top-p 就是来解决这个问题的：控制"候选池"的范围，而不是调整概率分布的形状。

一句话定义：Top-p 限制采样的候选范围，只从累计概率最高的一小部分词里选。

当 top-p = 0.9 时：

类比：就像老师阅卷时，只给答题纸上前 90% 写得最认真的部分打分，最潦草的部分直接忽略。

两者都控制随机性，但方向不同：

参数	控制什么	类比
Temperature	调整概率分布的平滑程度	调"胆子大小"
Top-p	限制候选词的范围	调"候选池宽度"

简单说：

关于 Token 的消耗：这俩参数主要影响输出的多样性和稳定性，不会直接影响 Token 数量，但会因为输出长度变化间接影响 Token 消耗。

适合调低 Top-p（0.7-0.9）：

适合保持默认 Top-p（通常 1.0 或不设置）：

实践建议：

记住这一句：Top-p 是"候选池宽度"的控制阀——调的是"哪些词有资格被选到"，而不是"选中的词有多保守"。

相关词条：Temperature