Context Window
为什么需要了解 Context Window
LLM 不是无限内存的机器,它一次能处理的内容有上限。
这个上限,决定了:
- 一次能塞多长的文档
- 多轮对话能不能保留全部历史
- RAG 检索结果能拼进去多少
Context Window 就是这个"上限"的定义——理解它,才能知道什么能塞进去、什么会超限。
什么是 Context Window
一句话定义:Context Window(上下文窗口)是模型一次请求最多能处理的 Token 数量,包括输入内容、对话历史、系统提示词,通常还要为输出预留空间。
类比:Context Window 就像模型的"工作台面"——东西太多摆不下,要么塞不进去,要么得先挪走一些。
常见量级:
- 早期模型:4K - 8K Token
- 现代模型:32K - 128K Token
- 超长上下文:200K+ Token
怎么做:什么时候需要关注 Context Window
长文档分析:合同、报告、知识库文章太长不能直接整篇塞进去,需要分段、摘要或检索式拼接。
长对话:对话轮次一多,历史消息不断累积,超过窗口后模型可能"忘记"前面说过的关键信息。
RAG 系统:检索不是找到越多文档越好,因为最终还要把这些片段塞回窗口。窗口有限,检索结果的数量和每个 chunk 的长度都要精打细算。
常见坑:
- 窗口大不等于更聪明:只是容量大,不代表推理质量同步提升
- 放得进去不等于用得好:超长上下文里,模型对中间部分的关注度常常下降("Lost in the Middle")
- 只算输入不算输出:生成回答也要占窗口预算
- 窗口越大成本越高:长上下文通常意味着更高成本和更慢延迟
记住这一句:Context Window 是模型的"工作台面"——知道它有多大,才能决定什么能塞进去、什么需要截断或压缩。
标签
上下文窗口上下文长度context length最大 token