Embedding Model

为什么需要了解 Embedding Model

Embedding 把文本转成向量，但"怎么转"是个技术活。

同一个意思，不同的模型转出来的向量质量可能差很远——有的能准确捕捉语义，有的只能抓到表面关键词。

Embedding Model 就是做这件事的工具：它的质量直接决定检索效果好不好、语义搜索准不准。

一句话定义：Embedding Model 是专门把文本转成向量的模型，它决定"转出来的向量好不好"。

类比：Embedding 是一种能力，Embedding Model 是实现这种能力的模型——就像"翻译"是一种能力，"某个翻译模型"是实现这个能力的工具。

选择标准：

通用场景：用 OpenAI text-embedding-3、Cohere 等成熟模型，效果稳定、接入简单。

专业领域（法律、医疗、金融等）：考虑专门微调过的 embedding 模型，通用模型在这些领域效果可能不佳。

多语言场景：选支持多语言的模型，或者针对目标语言优化的模型。

成本考虑：不同模型的维度和定价差异很大，需要在效果和成本间权衡。

记住这一句：Embedding Model 是"把文本转成向量"的工具——它的质量决定了 embedding 的效果，选对模型是检索系统成功的前提。