AgentKnowledgeAgentKnowledgeAgentKnowledge
知识文档AI热点经典好文
AgentKnowledgeAgentKnowledgeAgentKnowledge

深入 Agent,构建你的专属。致力于打造体系化的 AI Agent 开发者学习平台。

学习路径

DocsAI BasicsAgent 工具Agent 实战

社区

GitHub

账号

User CenterLogin

© 2026 AgentKnowledge.cn. 保留所有权利。

  • Agent
  • System Prompt
  • Prompt
  • Prompt Engineering
  • Zero-shot / Few-shot
  • Chain of Thought(CoT)
  • ReAct
  • SKILL(Agent技能)
  • Memory(Agent记忆)
  • RAG
  • Retrieval
  • Embedding
  • Embedding Model
  • Vector Database
  • Cosine Similarity
  • MCP(Model Context Protocol)
  • Tool Calling
  • Function Schema
  • Structured Output
  • OpenClaw
  • Harness Engineering(驾驭工程)
  • Token
  • Context Window
  • Temperature
  • Top-p
  • Transformer 架构
  • 向量数据库
  • Embedding 模型
  • 数据源接入
  • Web Search
  • Memory 系统
  • Function Calling
  • 实战沙箱
  • 模块三 · 知识获取

    数据源接入

    将企业数据「喂」给 Agent 的管道。RAG(检索增强生成)的 Retriever 部分——文档解析、分块、Embedding、检索策略,每一步都决定最终效果。

    RAG 完整流程

    文档→分块(Chunking)→Embedding→存入向量数据库↓用户提问→Embedding→向量检索→Top-K 召回→拼入 Prompt→LLM 回答
    Retriever 是 RAG 的核心:Embedding 和分块都是为检索服务的。检索做不好,后面的 LLM 回答再好也是无米之炊。
    RAG 词条检索词条

    数据源类型与处理

    数据类型格式推荐工具注意事项
    PDF文本 + 排版pdf-parse / PyMuPDF表格、图表需要特殊处理
    Markdown结构化文本直接读取最友好的格式,按标题分块
    Word (.docx)富文本python-docx样式信息可能丢失
    网页HTMLPlaywright / BeautifulSoup需要去重、反爬
    飞书 / Notion结构化官方 API各平台 API 不同
    数据库结构化SQL 查询 → 文本需要 schema 描述
    代码仓库代码文件tree-sitter保留代码结构,按函数分块

    分块策略(Chunking)

    分块是 RAG 中最被低估的环节。块太大,相关上下文被淹没;块太小,语义不完整。

    固定长度分块

    简单

    按字符数或 token 数硬切

    ✓ 实现简单结果稳定

    ✗ 可能切断语义单元(句子、段落)

    按语义分块

    推荐

    按段落、标题、换行符等自然边界切

    ✓ 保留语义完整性效果好

    ✗ 块大小不均匀需要额外处理

    递归字符分块

    最佳实践

    先按段落,不够再按句子,再不够按单词

    ✓ 兼顾完整性和灵活性推荐实践

    ✗ 实现稍复杂

    推荐配置: 中文场景:512 tokens(约 256-512 汉字),使用 RecursiveCharacterTextSplitter, 按段落 + 换行符分块,可重叠 20% 以保留边界语义。

    高级检索策略

    混合搜索(Hybrid Search)

    向量检索擅长语义相似,关键词搜索(BM25)擅长精确匹配。两者结合效果最好:

    1. 向量检索:召回 Top-20(语义相关)
    2. BM25 搜索:召回 Top-20(关键词相关)
    3. RRF(倒数排名融合):综合排名取 Top-5
    4. (可选)Cross-Encoder 重排:精排取 Top-3

    查询改写(Query Rewriting)

    用户的问题往往太短、口语化、或者包含多义词。直接检索效果差。

    用户原始问题

    「我们的手机用的是什么芯片」

    LLM 改写后

    「公司手机产品的处理器芯片型号及供应商」

    父子文档检索(Parent-Child Chunks)

    大块(Parent)保证语义完整,小块(Child)保证检索精度。 先用小块召回,再用大块提供上下文。适合长文档场景。

    检索词条Embedding 模型(上一个模块)Web Search(下一个模块)