AgentKnowledgeAgentKnowledgeAgentKnowledge
知识文档AI热点经典好文
AgentKnowledgeAgentKnowledgeAgentKnowledge

深入 Agent,构建你的专属。致力于打造体系化的 AI Agent 开发者学习平台。

学习路径

DocsAI BasicsAgent 工具Agent 实战

社区

GitHub

账号

User CenterLogin

© 2026 AgentKnowledge.cn. 保留所有权利。

  • Agent
  • System Prompt
  • Prompt
  • Prompt Engineering
  • Zero-shot / Few-shot
  • Chain of Thought(CoT)
  • ReAct
  • SKILL(Agent技能)
  • Memory(Agent记忆)
  • RAG
  • Retrieval
  • Embedding
  • Embedding Model
  • Vector Database
  • Cosine Similarity
  • MCP(Model Context Protocol)
  • Tool Calling
  • Function Schema
  • Structured Output
  • OpenClaw
  • Harness Engineering(驾驭工程)
  • Token
  • Context Window
  • Temperature
  • Top-p
  • Transformer 架构
  • 向量数据库
  • Embedding 模型
  • 数据源接入
  • Web Search
  • Memory 系统
  • Function Calling
  • 实战沙箱
  • Context Window

    为什么需要了解 Context Window

    LLM 不是无限内存的机器,它一次能处理的内容有上限。

    这个上限,决定了:

    • 一次能塞多长的文档
    • 多轮对话能不能保留全部历史
    • RAG 检索结果能拼进去多少

    Context Window 就是这个"上限"的定义——理解它,才能知道什么能塞进去、什么会超限。


    什么是 Context Window

    一句话定义:Context Window(上下文窗口)是模型一次请求最多能处理的 Token 数量,包括输入内容、对话历史、系统提示词,通常还要为输出预留空间。

    类比:Context Window 就像模型的"工作台面"——东西太多摆不下,要么塞不进去,要么得先挪走一些。

    常见量级:

    • 早期模型:4K - 8K Token
    • 现代模型:32K - 128K Token
    • 超长上下文:200K+ Token

    怎么做:什么时候需要关注 Context Window

    长文档分析:合同、报告、知识库文章太长不能直接整篇塞进去,需要分段、摘要或检索式拼接。

    长对话:对话轮次一多,历史消息不断累积,超过窗口后模型可能"忘记"前面说过的关键信息。

    RAG 系统:检索不是找到越多文档越好,因为最终还要把这些片段塞回窗口。窗口有限,检索结果的数量和每个 chunk 的长度都要精打细算。

    常见坑:

    • 窗口大不等于更聪明:只是容量大,不代表推理质量同步提升
    • 放得进去不等于用得好:超长上下文里,模型对中间部分的关注度常常下降("Lost in the Middle")
    • 只算输入不算输出:生成回答也要占窗口预算
    • 窗口越大成本越高:长上下文通常意味着更高成本和更慢延迟

    记住这一句:Context Window 是模型的"工作台面"——知道它有多大,才能决定什么能塞进去、什么需要截断或压缩。

    相关词条:Token · RAG

    相关词条

    TokenTemperatureTop-pRAG

    标签

    上下文窗口上下文长度context length最大 token

    目录

    为什么需要了解 Context Window什么是 Context Window怎么做:什么时候需要关注 Context Window