AgentKnowledgeAgentKnowledgeAgentKnowledge
文档案例博客
AgentKnowledgeAgentKnowledgeAgentKnowledge

深入 Agent,构建你的专属。致力于打造体系化的 AI Agent 开发者学习平台。

学习路径

DocsAI BasicsMCPAgent 实战

社区

ShowcaseBlogGitHub

账号

User CenterLogin

© 2026 AgentKnowledge.cn. 保留所有权利。

  • Agent
  • System Prompt
  • Prompt
  • Prompt Engineering
  • Zero-shot / Few-shot
  • Chain of Thought(CoT)
  • ReAct
  • SKILL(Agent技能)
  • Memory(Agent记忆)
  • RAG
  • Retrieval
  • Embedding
  • Embedding Model
  • Vector Database
  • Cosine Similarity
  • MCP(Model Context Protocol)
  • Tool Calling
  • Function Schema
  • Structured Output
  • OpenClaw
  • Harness Engineering(驾驭工程)
  • Token
  • Context Window
  • Temperature
  • Top-p
  • Transformer 架构
  • MCP
  • Agent

Transformer 架构

为什么需要了解 Transformer

几乎所有现代大语言模型(GPT、Claude、LLaMA 等)都基于 Transformer 架构。

理解 Transformer,不需要懂深层的数学,而是理解它的核心思想:让模型在处理每个词的时候,能"看到"整个句子的所有词,而不是只能看到前面几个。

这解决了传统模型(如 RNN)的根本问题——无法有效处理长距离依赖。


什么是 Transformer

一句话定义:Transformer 是 2017 年 Google 提出的深度学习架构,通过"自注意力机制"让模型能同时处理序列中任意位置的关系。

核心机制:自注意力(Self-Attention)

  • 处理每个词时,计算它和句子中所有其他词的相关性
  • "今天"和"天气"相关性高,"今天"和"火箭"相关性低
  • 这种"谁和谁更相关"的计算,让模型理解上下文

类比:就像阅读时,你不会只盯着当前这个词,而是会把目光放到整个句子甚至整段话,理解每个词在上下文中的含义。


怎么做:Transformer 对使用者的实际意义

作为使用者,你不需要关心底层的注意力计算,但需要理解它带来的能力:

更强的上下文理解:模型能利用整个窗口内的信息,不只是最近几句话。这就引出了 Context Window 的概念——Transformer 让扩展 Context Window 成为可能(从 4K 到 128K Token)。

更长的上下文窗口:这直接影响了 RAG 系统能塞进多少外部知识,也影响了 Memory 能保留多少历史信息。

Scaling Law:模型规模越大,性能持续提升——这让"大力出奇迹"成为可能。

预训练 + 微调范式:大规模预训练后,用少量数据微调就能适应多种任务。


记住这一句:Transformer 让模型"看到"整个上下文,而不是只能看前几个词——这是现代 LLM 能理解长文本、做复杂推理的基础。

相关词条:Context Window · Embedding

相关词条

TokenContext WindowEmbedding

标签

Transformertransformer architecture注意力机制attention mechanism自注意力self-attention大语言模型LLM architecture

目录

为什么需要了解 Transformer什么是 Transformer怎么做:Transformer 对使用者的实际意义