首页 / 技术概念 / Transformer HTML 2026/5/26 新标签页打开

Transformer

一句话定义:Transformer 是一种完全基于注意力机制(Attention)的序列到序列模型架构,摒弃了传统的循环和卷积结构,通过自注意力(Self-Attention)让序列中的每个位置都能直接"看到"所有其他位置,从而实现高效的并行计算和长距离依赖建模。

2026-05-13 进阶 深度学习 NLP 注意力机制 Transformer 一句话定义:Transformer 是一种完全基于注意力机制(Attention)的序列到序列模型架构,摒弃了传统的循环和卷积结构,通过自注意力(Self-Attention)让序列中的每个位置都能直接"看到"所有其他位置,从而实现高效的并行计算和长距离依赖建模。 为什么需要它? 在 Transformer 之前,处理序列数据(如文本、语音)的主流方案是 RNN 及其变体 LSTM/GRU。它们有一个根本性的瓶颈:必须按顺序逐个处理 token。这意味着: 无法并行:处理一个长度为 n 的序列需要 n 步,GPU 的并行能力被浪费 长距离遗忘:信息在序列中传递时会逐步衰减,句首的信息很难影响句尾的决策 训练极慢:上述两点叠加,导致在大规模数据上训练需要数周甚至数月 Transformer 用自注意力机制一举解决了这三个问题——序列中的任意两个位置之间只有一条"直连通道",不需要经过中间位置的传递,同时所有位置的计算可以完全并行执行。 核心直觉 想象你在一个会议上,所有人都同时发言,但你能选择性地关注任何一…

学习路径

AI 工具链路径

当前:Transformer