文档案例博客

深入 Agent，构建你的专属。致力于打造体系化的 AI Agent 开发者学习平台。

学习路径

Docs AI Basics MCP Agent 实战

社区

Showcase Blog GitHub

账号

User Center Login

© 2026 AgentKnowledge.cn. 保留所有权利。

Agent
System Prompt
Prompt
Prompt Engineering
Zero-shot / Few-shot
Chain of Thought（CoT）
ReAct
SKILL（Agent技能）
Memory（Agent记忆）
RAG
Retrieval
Embedding
Embedding Model
Vector Database
Cosine Similarity
MCP（Model Context Protocol）
Tool Calling
Function Schema
Structured Output
OpenClaw
Harness Engineering（驾驭工程）
Token
Context Window
Temperature
Top-p
Transformer 架构

MCP

Agent

Context Window

为什么需要了解 Context Window

LLM 不是无限内存的机器，它一次能处理的内容有上限。

这个上限，决定了：

一次能塞多长的文档
多轮对话能不能保留全部历史
RAG 检索结果能拼进去多少

Context Window 就是这个"上限"的定义——理解它，才能知道什么能塞进去、什么会超限。

什么是 Context Window

一句话定义：Context Window（上下文窗口）是模型一次请求最多能处理的 Token 数量，包括输入内容、对话历史、系统提示词，通常还要为输出预留空间。

类比：Context Window 就像模型的"工作台面"——东西太多摆不下，要么塞不进去，要么得先挪走一些。

常见量级：

早期模型：4K - 8K Token
现代模型：32K - 128K Token
超长上下文：200K+ Token

怎么做：什么时候需要关注 Context Window

长文档分析：合同、报告、知识库文章太长不能直接整篇塞进去，需要分段、摘要或检索式拼接。

长对话：对话轮次一多，历史消息不断累积，超过窗口后模型可能"忘记"前面说过的关键信息。

RAG 系统：检索不是找到越多文档越好，因为最终还要把这些片段塞回窗口。窗口有限，检索结果的数量和每个 chunk 的长度都要精打细算。

常见坑：

窗口大不等于更聪明：只是容量大，不代表推理质量同步提升
放得进去不等于用得好：超长上下文里，模型对中间部分的关注度常常下降（"Lost in the Middle"）
只算输入不算输出：生成回答也要占窗口预算
窗口越大成本越高：长上下文通常意味着更高成本和更慢延迟

记住这一句：Context Window 是模型的"工作台面"——知道它有多大，才能决定什么能塞进去、什么需要截断或压缩。

相关词条：Token · RAG

相关词条

Token Temperature Top-p RAG

标签

上下文窗口上下文长度context length最大 token

目录

为什么需要了解 Context Window 什么是 Context Window 怎么做：什么时候需要关注 Context Window