模块四 · 实时信息

Web Search

让 Agent 突破 LLM 训练数据的知识截止日期，获取实时新闻、股价、天气等动态信息。 Web Search 是 Agent 睁眼看世界的主要方式。

为什么 Agent 需要 Web Search

LLM 的知识有截止日期

• GPT-4 Turbo 知识截止：2024 年 6 月
• 无法回答「今天发生了什么」
• 无法获取股价、天气、比赛结果等实时数据
• 企业内部数据（LLM 从未见过）

Web Search 解决了什么

• 实时信息：新闻、股价、天气、比赛
• 事实核查：验证 AI 生成内容的准确性
• 补充私有知识：定期爬取企业内部数据
• 开放世界问答：AI 不确定的事实时搜索

Agent 词条

主流 Web Search API 对比

Tavily

推荐Tavily

1000 次/月

免费额度

专为 AI 搜索优化返回结构化结果有搜索结果摘要

适用：Agent 场景首选

Brave Search API

开源Brave

2000 次/月

免费额度

开源、无追踪结果质量高支持网页内容提取

适用：MCP 集成 / 隐私优先

Serper

生产推荐Serper

2500 次/月

免费额度

Google 搜索结果速度快支持图片搜索

适用：生产环境 / Google 结果

SerpAPI

多引擎RapidAPI

100 次/月

免费额度

支持多引擎Google/Bing/DuckDuckGo无需维护爬虫

适用：多引擎对比

Google Custom Search

免费Google

100 次/天

免费额度

搜索质量最高无额外成本可自定义 CSE

适用：正式产品 / 低流量

Web Search 在 Agent 中的使用模式

作为 Tool（工具调用）

Web Search 被包装成一个 MCP 工具，Agent 自主判断何时调用。适合开放世界问答。

if (问题涉及实时信息) { 调用 web_search(问题) }

作为 RAG 前置（定期爬取）

定期爬取特定网站，更新向量数据库。适合企业知识库维护。

Cron Job：每天爬取官网更新
→ 增量更新向量数据库

作为实时校验（事实核查）

Agent 生成答案后，用 Web Search 验证关键事实。减少幻觉，提高可信度。

生成回答 → 提取关键声明
→ 搜索验证 → 标注来源

工程实践

搜索结果处理

搜索 API 返回大量网页片段（snippets），不能直接塞给 LLM。需要二次处理：

搜索 API 返回 Top-10 结果（标题 + 摘要 + URL）
LLM 提取每条结果的关键信息
合并关键信息，生成回答
引用来源（cite）：标注每条信息的来源 URL

搜索词优化（Query Optimization）

用户问题往往口语化、模糊。直接搜索效果差：

用户原始

「苹果最近怎么样」

LLM 改写

「Apple Inc 最新财报 2025」

超时的处理

搜索 API 有网络延迟（1-3 秒）。Agent 等待时需要：设置 5-10 秒超时 + 重试 1 次 + 超时后返回友好提示「搜索超时，请稍后重试」。

快速上手：Tavily

Python 示例：Tavily 搜索

# 安装
pip install tavily-python

# 使用
from tavily import TavilyClient

client = TavilyClient(api_key="TAVILY_API_KEY")

results = client.search(
    query="今天 AI 领域有什么新闻",
    max_results=5,
    include_answer=True
)

for r in results["results"]:
    print(f"标题: {r['title']}")
    print(f"摘要: {r['content']}")
    print(f"来源: {r['url']}")
    print("---")

Tavily 返回结构化结果，包含标题、摘要、URL，适合直接喂给 LLM。注册获取 API Key：app.tavily.com

数据源接入（上一个模块）Memory 系统（下一个模块）

为什么 Agent 需要 Web Search

LLM 的知识有截止日期

• GPT-4 Turbo 知识截止：2024 年 6 月
• 无法回答「今天发生了什么」
• 无法获取股价、天气、比赛结果等实时数据
• 企业内部数据（LLM 从未见过）

Web Search 解决了什么

• 实时信息：新闻、股价、天气、比赛
• 事实核查：验证 AI 生成内容的准确性
• 补充私有知识：定期爬取企业内部数据
• 开放世界问答：AI 不确定的事实时搜索

主流 Web Search API 对比

Tavily

推荐Tavily

1000 次/月

免费额度

专为 AI 搜索优化返回结构化结果有搜索结果摘要

适用：Agent 场景首选

Brave Search API

开源Brave

2000 次/月

免费额度

开源、无追踪结果质量高支持网页内容提取

适用：MCP 集成 / 隐私优先

Serper

生产推荐Serper

2500 次/月

免费额度

Google 搜索结果速度快支持图片搜索

适用：生产环境 / Google 结果

SerpAPI

多引擎RapidAPI

100 次/月

免费额度

支持多引擎Google/Bing/DuckDuckGo无需维护爬虫

适用：多引擎对比

Google Custom Search

免费Google

100 次/天

免费额度

搜索质量最高无额外成本可自定义 CSE

适用：正式产品 / 低流量

Web Search 在 Agent 中的使用模式

作为 Tool（工具调用）

Web Search 被包装成一个 MCP 工具，Agent 自主判断何时调用。适合开放世界问答。

if (问题涉及实时信息) { 调用 web_search(问题) }

作为 RAG 前置（定期爬取）

定期爬取特定网站，更新向量数据库。适合企业知识库维护。

Cron Job：每天爬取官网更新
→ 增量更新向量数据库

作为实时校验（事实核查）

Agent 生成答案后，用 Web Search 验证关键事实。减少幻觉，提高可信度。

生成回答 → 提取关键声明
→ 搜索验证 → 标注来源

工程实践

搜索结果处理

搜索 API 返回大量网页片段（snippets），不能直接塞给 LLM。需要二次处理：

搜索 API 返回 Top-10 结果（标题 + 摘要 + URL）
LLM 提取每条结果的关键信息
合并关键信息，生成回答
引用来源（cite）：标注每条信息的来源 URL

搜索词优化（Query Optimization）

用户问题往往口语化、模糊。直接搜索效果差：

用户原始

「苹果最近怎么样」

LLM 改写

「Apple Inc 最新财报 2025」

超时的处理

搜索 API 有网络延迟（1-3 秒）。Agent 等待时需要：设置 5-10 秒超时 + 重试 1 次 + 超时后返回友好提示「搜索超时，请稍后重试」。

快速上手：Tavily

Python 示例：Tavily 搜索

# 安装
pip install tavily-python

# 使用
from tavily import TavilyClient

client = TavilyClient(api_key="TAVILY_API_KEY")

results = client.search(
    query="今天 AI 领域有什么新闻",
    max_results=5,
    include_answer=True
)

for r in results["results"]:
    print(f"标题: {r['title']}")
    print(f"摘要: {r['content']}")
    print(f"来源: {r['url']}")
    print("---")

Tavily 返回结构化结果，包含标题、摘要、URL，适合直接喂给 LLM。注册获取 API Key：app.tavily.com