模块二 · 语义翻译

Embedding 模型

将文本「翻译」成数字向量的模型。Embedding 是向量数据库的上游、RAG 的起点——选对模型，检索效果提升 30% 以上。

什么是 Embedding

Embedding（嵌入）是将离散符号（文字、图片、声音）映射到连续向量空间的技术。映射后，语义相近的内容在向量空间中距离更近。

举例

「苹果」和「水果」距离 ≈ 0.12
「苹果」和「手机」距离 ≈ 0.35
「苹果」和「汽车」距离 ≈ 0.71

实际应用

• 语义搜索（不是关键词匹配）
• 相似内容推荐
• 文档去重 / 聚类
• RAG 的检索基础

查看 Embedding 词条

主流模型选型

text-embedding-3-small

推荐OpenAI

适用场景：通用场景，预算有限

$0.02 / 1M tokens

1536 维

性价比最高延迟低

多语言（中文一般）

text-embedding-3-large

高精度OpenAI

适用场景：对精度要求高的场景

$0.13 / 1M tokens

3072 维

精度最高支持维度缩减

多语言（中文一般）

text-embedding-ada-002

稳定OpenAI

适用场景：已有项目迁移

$0.10 / 1M tokens

1536 维

稳定老将生态成熟

多语言

BGE-m3

开源智源（BAAI）

适用场景：中文场景 / 预算有限

开源免费

1024 维

开源免费多语言极强中文优化

中英日韩等 100+

M3E

中文优选MokaAI

适用场景：中文 RAG 场景

开源免费

1536 维

开源免费中文效果好社区活跃

中英双语

Cohere Embed

多语言Cohere

适用场景：国际化应用

$0.10 / 1M tokens

1024 维

多语言支持强API 友好有 Reranker

100+ 语言

中文场景特殊建议

中文 RAG 首选：BGE 或 M3E

OpenAI Embedding 的训练数据以英文为主，中文支持一般。实测在中文语义检索场景下， BGE-m3 和 M3E 的效果显著优于 OpenAI ada-002，而且完全免费。

# BGE 模型（HuggingFace）
model = "BAAI/bge-m3"
# M3E 模型（SiliconCloud / MokaAI）
model = "mokaai/m3e-base"

如何评估 Embedding 质量

人工抽检

随机选 20 个 Query，查 Top-5 结果，人工判断相关性。简单直接，适合快速验证。

批量评估脚本

准备标注数据集（有标准答案的 Query-Doc 对），跑 Recall@K / MRR 指标。客观可复现。

RAGAs 框架

专业 RAG 评估工具，可评估 Retriever 的上下文召回率和 Answer 的相关性。适合生产环境。

Embedding 模型词条向量数据库（上一个模块）数据源接入（下一个模块）

什么是 Embedding

Embedding（嵌入）是将离散符号（文字、图片、声音）映射到连续向量空间的技术。映射后，语义相近的内容在向量空间中距离更近。

举例

「苹果」和「水果」距离 ≈ 0.12
「苹果」和「手机」距离 ≈ 0.35
「苹果」和「汽车」距离 ≈ 0.71

实际应用

• 语义搜索（不是关键词匹配）
• 相似内容推荐
• 文档去重 / 聚类
• RAG 的检索基础

主流模型选型

text-embedding-3-small

推荐OpenAI

适用场景：通用场景，预算有限

$0.02 / 1M tokens

1536 维

性价比最高延迟低

多语言（中文一般）

text-embedding-3-large

高精度OpenAI

适用场景：对精度要求高的场景

$0.13 / 1M tokens

3072 维

精度最高支持维度缩减

多语言（中文一般）

text-embedding-ada-002

稳定OpenAI

适用场景：已有项目迁移

$0.10 / 1M tokens

1536 维

稳定老将生态成熟

多语言

BGE-m3

开源智源（BAAI）

适用场景：中文场景 / 预算有限

开源免费

1024 维

开源免费多语言极强中文优化

中英日韩等 100+

M3E

中文优选MokaAI

适用场景：中文 RAG 场景

开源免费

1536 维

开源免费中文效果好社区活跃

中英双语

Cohere Embed

多语言Cohere

适用场景：国际化应用

$0.10 / 1M tokens

1024 维

多语言支持强API 友好有 Reranker

100+ 语言

中文场景特殊建议

中文 RAG 首选：BGE 或 M3E

OpenAI Embedding 的训练数据以英文为主，中文支持一般。实测在中文语义检索场景下， BGE-m3 和 M3E 的效果显著优于 OpenAI ada-002，而且完全免费。

# BGE 模型（HuggingFace）
model = "BAAI/bge-m3"
# M3E 模型（SiliconCloud / MokaAI）
model = "mokaai/m3e-base"

如何评估 Embedding 质量

人工抽检

随机选 20 个 Query，查 Top-5 结果，人工判断相关性。简单直接，适合快速验证。

批量评估脚本

准备标注数据集（有标准答案的 Query-Doc 对），跑 Recall@K / MRR 指标。客观可复现。

RAGAs 框架

专业 RAG 评估工具，可评估 Retriever 的上下文召回率和 Answer 的相关性。适合生产环境。