Transformer 架构

为什么需要了解 Transformer

几乎所有现代大语言模型（GPT、Claude、LLaMA 等）都基于 Transformer 架构。

理解 Transformer，不需要懂深层的数学，而是理解它的核心思想：让模型在处理每个词的时候，能"看到"整个句子的所有词，而不是只能看到前面几个。

这解决了传统模型（如 RNN）的根本问题——无法有效处理长距离依赖。

一句话定义：Transformer 是 2017 年 Google 提出的深度学习架构，通过"自注意力机制"让模型能同时处理序列中任意位置的关系。

核心机制：自注意力（Self-Attention）

类比：就像阅读时，你不会只盯着当前这个词，而是会把目光放到整个句子甚至整段话，理解每个词在上下文中的含义。

作为使用者，你不需要关心底层的注意力计算，但需要理解它带来的能力：

更强的上下文理解：模型能利用整个窗口内的信息，不只是最近几句话。这就引出了 Context Window 的概念——Transformer 让扩展 Context Window 成为可能（从 4K 到 128K Token）。

更长的上下文窗口：这直接影响了 RAG 系统能塞进多少外部知识，也影响了 Memory 能保留多少历史信息。

Scaling Law：模型规模越大，性能持续提升——这让"大力出奇迹"成为可能。

预训练 + 微调范式：大规模预训练后，用少量数据微调就能适应多种任务。

记住这一句：Transformer 让模型"看到"整个上下文，而不是只能看前几个词——这是现代 LLM 能理解长文本、做复杂推理的基础。