同一个 Transformer，吃掉一切：为什么语音、图像、自动驾驶、大模型都在用它

2026-05-06 · Steve Chan

同一个 Transformer，吃掉一切：为什么语音、图像、自动驾驶、大模型都在用它

2017 年 Google 的 Attention Is All You Need 只是想把机器翻译做得更好。八年过去，这个最初用来翻译英德文的架构，已经成了语音识别、图像分类、视频生成、自动驾驶、蛋白质折叠、机器人控制的共同底座。几乎每一个领域的 SOTA 都长着一张 Transformer 的脸。

本文回答三件事： 1. 为什么是 Transformer？ 它做对了哪几件事，让 CNN、RNN、HMM、图模型全面退场。 2. 每个领域具体怎么用？ 列一份 2024-2026 的 SOTA 地图：模型名、input 怎么 tokenize、架构在哪里变了。 3. 它们和 CodeGPT 到底有多像？ 拿 model.py:177-198 的 forward 做基准，你会发现图像、语音、驾驶模型的主干几乎逐行对应。

1. 一张图：Transformer 统治的版图

┌─────────────────────────────────────────────────────────────────┐
│                    Transformer 架构（2017）                      │
└─────────────────────────────────────────────────────────────────┘
        │
        ├── 语言/代码 ──► GPT-4 / Claude / Llama / DeepSeek / CodeGPT(本项目)
        │
        ├── 图像识别 ───► ViT / Swin / DINOv2 / SAM / CLIP
        │
        ├── 图像生成 ───► DiT(Stable Diffusion 3) / Sora / Imagen 3
        │
        ├── 语音识别 ───► Whisper / Conformer / SeamlessM4T
        │
        ├── 语音生成 ───► VALL-E / SoundStorm / AudioLM
        │
        ├── 视频 ───────► Sora / Veo / VideoPoet
        │
        ├── 自动驾驶 ───► Tesla FSD v12 / BEVFormer / UniAD / Waymo Foundation
        │
        ├── 机器人 ─────► RT-2 / PaLM-E / Octo / π0
        │
        ├── 蛋白质 ─────► AlphaFold 2/3 / ESM-2 / RoseTTAFold
        │
        └── 时间序列 ───► TimesFM / Chronos / MOIRAI

曾经每个领域都有自己的"护城河架构"——CV 是 CNN，ASR 是 LSTM+CTC，推荐是 FM，机器人是 RL+MPC，蛋白质是 CNN+注意力混合。到 2025 年，这些护城河都被同一条河填平了。 填平它的不是某家公司的具体模型，而是 Transformer 这个架构模板本身。

2. 为什么 Transformer 能赢？三个根本原因

原因一：最小归纳偏置（Minimal Inductive Bias）

CNN 假设图像"局部相关、平移等变"——这是对图像的硬编码先验。RNN 假设序列"只能从左到右、用固定容量压缩历史"——这是对序列的硬编码先验。

Transformer 的假设近乎为零：

# 来自 model.py:51-73 —— CodeGPT 的 CausalSelfAttention.forward
def forward(self, x):                                # x: (B, T, C) —— 一堆向量
    B, T, C = x.size()
    q, k, v = self.c_attn(x).split(self.n_embd, dim=2)
    # ... reshape 成多头 ...
    y = torch.nn.functional.scaled_dot_product_attention(
        q, k, v, attn_mask=None,
        dropout_p=self.dropout if self.training else 0,
        is_causal=True,
    )                                                # 任意两个位置都能直接对话
    return self.resid_dropout(self.c_proj(y))

这段代码对 x 的假设只有一条：x 是一个形状为 (B, T, C) 的张量——"一堆可以互相关注的向量"。至于这些向量来自哪里（像素、音频帧、token、车道线、氨基酸），代码完全不关心。

硬编码的先验越少，能装下的数据规律越多。 在小数据时代，CNN 的平移等变先验能让它用 10 万张图击败没有先验的模型；但在 ImageNet-21K → LAION-5B 的量级，先验反而变成束缚——Transformer 用数据自己学会了"局部性"和"平移等变"，还学到了 CNN 学不到的全局关联。

这就是 TRANSFORMER_FROM_VISION.md 的核心论断在跨模态上的推论：谁的归纳偏置最少，谁就能在数据规模无限大时笑到最后。

原因二：一切皆可 tokenize

Transformer 不在乎你的输入"本来是什么"。它只要求你给它一个形状为 (B, T, C) 的张量。于是每个领域都在做同一件事——把自己的数据切成 token，然后投影到 C 维向量。

# 把任意模态变成 Transformer 能吃的输入 —— 统一配方

# ----- 语言/代码（本项目 model.py:183）-----
# 1 个 token = 1 个 BPE 子词
tok_emb = wte(idx)                      # (B, T, C)

# ----- 图像（ViT）-----
# 1 个 token = 一个 16×16 的图像 patch
patches = image.unfold(2, 16, 16).unfold(3, 16, 16)   # (B, 3, H/16, W/16, 16, 16)
tokens = patches.flatten(2).transpose(1, 2)           # (B, N_patches, 16*16*3)
tok_emb = nn.Linear(16*16*3, C)(tokens)               # (B, T, C)

# ----- 语音（Whisper）-----
# 1 个 token = 梅尔频谱的一个时间帧
mel = torchaudio.transforms.MelSpectrogram(n_mels=80)(waveform)  # (B, 80, T)
tokens = mel.transpose(1, 2)                                     # (B, T, 80)
tok_emb = nn.Linear(80, C)(tokens)                               # (B, T, C)

# ----- 自动驾驶（BEVFormer）-----
# 1 个 token = 鸟瞰图的一个网格单元 or 一条查询向量
bev_grid = project_cameras_to_bev(multi_view_images)   # (B, H_bev, W_bev, C)
tokens = bev_grid.flatten(1, 2)                        # (B, H_bev*W_bev, C)

# ----- 蛋白质（AlphaFold 2 / ESM）-----
# 1 个 token = 1 个氨基酸
tok_emb = wte(amino_acid_ids)            # (B, L_seq, C)

配方永远是两步：(1) 切成序列；(2) 线性投影到同一个 C 维。 之后所有领域共享完全相同的后续管线——堆 L 层 Block，每层都是 Attention + MLP + 残差 + LayerNorm，就是 model.py:93-105 的那十几行。

这就是为什么一个大学生能在一周内把 ViT 跑通——如果他之前实现过 GPT，主干代码几乎一行不用改。

原因三：与硬件的"共谋"——可大规模并行

RNN 的致命伤是时序依赖：h_t = f(h_{t-1}, x_t)，GPU 被迫按时间步串行计算。Transformer 把这条依赖切断——所有时间步的 attention 可以一次矩阵乘算完：

# 伪代码对比

# RNN：T 个时间步必须串行
h = h_0
for t in range(T):
    h = rnn_cell(x[t], h)         # 第 t 步等第 t-1 步
    outputs.append(h)

# Transformer：一次矩阵乘搞定所有时间步
Q = x @ W_q                        # (B, T, C) @ (C, C) —— 一次算完所有 t
K = x @ W_k
V = x @ W_v
y = softmax(Q @ K.T / sqrt(d)) @ V # (B, T, T) @ (B, T, C) —— 依然一次算完

GPU 的 tensor core 是为大矩阵乘设计的。Transformer 的 FLOPs 大部分集中在 nn.Linear 上（c_attn、c_proj、mlp.c_fc、mlp.c_proj），这正是硬件最擅长的形状。结果：同样的电费，Transformer 比 RNN 能多训几十倍数据。

数据量起来之后，Scaling Law 接管——模型能力随参数、数据、算力按幂律平滑增长。而 RNN / LSTM 的 scaling 曲线在几亿参数就开始走平。

三个原因其实是一体两面的：零先验 → 需要海量数据 → 必须并行化才喂得动 → 只有 Transformer 能做到这三件事同时成立。 这就是为什么其他架构即使在小数据上偶尔赢一局，也没法真正威胁它。

3. 各领域 SOTA 地图：谁在用 Transformer，怎么用

下面按领域盘点，每条目的格式是：模型名 / 发布年 / 作用 / Transformer 用在哪 / 关键变体。

3.1 语言与代码（大模型）

模型	年份	作用	Transformer 用法
GPT-4 / Claude 3.7 / Gemini 2	2023-2026	通用 LLM	Decoder-only Transformer，稀疏 MoE，数千亿参数
Llama 3 / DeepSeek-V3	2024-2025	开源 LLM	RoPE + GQA + SwiGLU，decoder-only
Codex / CodeLlama / StarCoder 2 / Qwen-Coder	2021-2025	代码生成	和 LLM 同架构 + 代码语料 + FIM 训练
本项目 CodeGPT	2026	代码生成（教学）	`model.py`：decoder-only + FIM + 词表扩展

代码怎么写 —— 本项目 model.py:177-198 就是这类模型的最小骨架。idx → wte → 位置编码 → L 层 Block → ln_f → lm_head → softmax 这条链路，在 GPT-4 里放大一万倍就是前沿 LLM。

3.2 图像识别

模型	年份	作用	Transformer 用法
ViT (Vision Transformer)	2020	图像分类	把图切成 16×16 patch 当 token，送 encoder Transformer
Swin Transformer	2021	检测/分割	层级 + 滑动窗口注意力，带回了一点 CNN 先验
CLIP	2021	图文对齐	一个视觉 Transformer + 一个语言 Transformer，对比学习
DINOv2	2023	自监督表征	ViT + 自蒸馏，无需标签即可学到通用视觉特征
SAM (Segment Anything)	2023	通用分割	ViT 图像编码器 + Prompt Transformer 解码器
EVA-02 / InternImage-Transformer	2023-2024	检测、分割新 SOTA	更大 ViT + 更多预训练数据

关键片段：

# ViT 编码器的核心 —— 对比 model.py:177-188，只有输入段不同
class ViT(nn.Module):
    def forward(self, image):                            # (B, 3, 224, 224)
        # === 把图像变 token，这是唯一特殊的一步 ===
        x = self.patch_embed(image)                      # (B, 14*14=196, C)
        x = torch.cat([self.cls_token.expand(B, -1, -1), x], dim=1)
        x = x + self.pos_embed                           # 学习式位置编码

        # === 下面和 GPT 的 forward 一模一样 ===
        for block in self.blocks:                        # L 层 Block，每层和 model.py:93-105 一样
            x = block(x)
        x = self.ln_f(x)
        return self.head(x[:, 0])                        # 用 [CLS] token 做分类

和本项目 CodeGPT.forward 的唯一区别：CodeGPT 用 wte(idx) 把整数索引变 embedding，ViT 用 Conv2d(3, C, 16, 16) 把图像 patch 变 embedding。 之后一模一样。

3.3 图像 / 视频生成

模型	年份	作用	Transformer 用法
DALL·E 2 / Imagen	2022	文生图（UNet 时代）	文本编码器是 Transformer，扩散主干还是 UNet
Stable Diffusion 3 / FLUX	2024	文生图（DiT 时代）	主干换成 DiT——Diffusion Transformer，UNet 退场
Sora / Veo 2	2024-2025	文生视频	把视频切成 3D 时空 patch → 送 DiT 去噪
VideoPoet	2023	视频理解+生成	离散化视频为 token，decoder-only Transformer 统一做

DiT 的关键代码对比：

# DiT block 相比 GPT block 只多一个东西：FiLM-style 调制
class DiTBlock(nn.Module):
    def forward(self, x, c):                             # c: 时间步 + 条件
        shift, scale, gate = self.adaLN_modulation(c).chunk(3, dim=1)
        # attention 部分（和 CodeGPT.CausalSelfAttention 一样，但不是 causal）
        x = x + gate * self.attn(modulate(self.ln1(x), shift, scale))
        # MLP 部分（和 model.py:76-90 完全一样）
        x = x + self.mlp(self.ln2(x))
        return x

视频就是 把时间维也当一个空间维——(B, T_frames, H, W, 3) → (B, T*H*W/patch³, C)，送进同一个 Transformer。Sora 之所以能生成 60 秒一致性视频，就是因为 attention 是真正的全局——它能让第 1 帧的像素和第 1200 帧的像素直接对话，这在 CNN/RNN 时代是做不到的。

3.4 语音识别与生成

模型	年份	作用	Transformer 用法
Wav2Vec 2.0	2020	自监督语音表征	Transformer encoder + 对比学习
Conformer	2020	ASR SOTA	Transformer + 卷积混合（混血）
Whisper	2022	通用 ASR + 翻译	Encoder-Decoder Transformer，68 万小时弱监督
SeamlessM4T	2023	语音↔语音翻译	多模态 Transformer 统一做
VALL-E / AudioLM	2023	TTS 零样本	把音频离散化为 codec token，decoder-only Transformer
SoundStorm	2023	并行语音生成	非自回归 Transformer，大幅加速 TTS

Whisper 的骨架：

# Whisper encoder —— 几乎就是把 ViT 的 patch_embed 换成一维卷积
class WhisperEncoder(nn.Module):
    def forward(self, mel):                              # (B, 80, 3000) 梅尔谱
        x = F.gelu(self.conv1(mel))                      # stride=1
        x = F.gelu(self.conv2(x))                        # stride=2 下采样
        x = x.permute(0, 2, 1)                           # (B, 1500, C)
        x = x + self.positional_embedding                # 正弦位置编码
        for block in self.blocks:                        # 和 model.py:93-105 的 Block 相同
            x = block(x)
        return self.ln_post(x)

"语音是 token 序列" —— 这个视角让 HMM + GMM + 对齐算法几十年的工程积累，被 Transformer 在三年内全面接管。Whisper 论文里一句话总结：只要数据足够多，Transformer 的 WER 单调下降，不需要任何领域特定的归纳偏置。

3.5 自动驾驶

这是变化最剧烈的领域之一——2020 年前主流是 CNN 多任务网络（HydraNet）+ 规则系统；2024 年 Tesla FSD v12 发布时，Elon Musk 说了一句极具标志性的话："我们删掉了 30 万行 C++ 代码，换成一个神经网络。"

模型	年份	作用	Transformer 用法
DETR	2020	目标检测	Transformer 替代 anchor-based head，object queries
BEVFormer	2022	BEV 感知	时空 Transformer，多相机 → 鸟瞰图表征
UniAD	2023	端到端驾驶	感知 + 预测 + 规划全用 Transformer 统一
Tesla FSD v12	2024	端到端量产系统	"Photon in, Control out"，像素直接到方向盘
Wayve LINGO / GAIA-1	2023-2024	世界模型	把驾驶建模成视频生成任务
Waymo EMMA / Foundation	2024-2025	基于 VLM 的驾驶	直接用多模态 Transformer 做规划

BEVFormer 的核心思想：

# BEV Query —— Transformer 的"哪里该看"彻底变成可学习的
class BEVFormerLayer(nn.Module):
    def forward(self, bev_queries, multi_view_features, prev_bev):
        # 时间自注意力：当前 BEV 和历史 BEV 对话
        bev_queries = self.temporal_attn(bev_queries, prev_bev)
        # 空间交叉注意力：BEV 网格 → 多相机特征
        bev_queries = self.spatial_cross_attn(bev_queries, multi_view_features)
        # FFN（和 model.py:85-90 一样）
        return self.mlp(self.ln(bev_queries))

端到端驾驶的终极形态是：把相机视频 + 导航指令当作 prompt，把方向盘角度 + 油门刹车当作 token 序列，然后做自回归预测——这就是把 CodeGPT 里的 idx → 下一个 token 换成 车载视频 → 下一个控制动作。模型架构几乎不用变。

3.6 机器人

模型	年份	作用	Transformer 用法
Gato	2022	通用智能体	一个 Transformer 做 604 种任务
RT-2 (Google)	2023	视觉-语言-动作	把机器人动作 token 化，和图文一起训
PaLM-E	2023	具身多模态大模型	540B，视觉+语言+动作统一
Octo / π0 (Physical Intelligence)	2024-2025	开源机器人基础模型	Diffusion Transformer 输出动作轨迹
RT-H / RDT	2024	层级指令跟随	语言 → 低级动作的自回归 Transformer

RT-2 的核心一招：

# 把机器人动作也当作 token
# 动作空间：(Δx, Δy, Δz, Δroll, Δpitch, Δyaw, gripper_open)
# 每个维度离散成 256 个 bin → 7 个 action token
#
# 训练数据：
#   输入：图像 + "pick up the red cup"
#   输出：<act_1234> <act_567> <act_89> ...  ← 和 CodeGPT 的代码 token 一视同仁
#
# 然后用和 model.py 完全一样的 F.cross_entropy(ignore_index=-1) 训练

这就把机器人控制这个"传统上需要 MPC + PID + 规则"的问题，彻底变成了一个"下一个 token 预测"问题。

3.7 科学计算

模型	年份	作用	Transformer 用法
AlphaFold 2	2021	蛋白质结构预测	Evoformer = 魔改 Transformer + 几何归纳偏置
AlphaFold 3	2024	蛋白-配体-核酸通用	Diffusion Transformer
ESM-2 / ESM-3	2022-2024	蛋白质语言模型	decoder-only Transformer 训氨基酸序列
GraphCast / Aurora	2023-2024	天气预报	Transformer 替代传统数值模拟，速度快 1000 倍
TimesFM / Chronos	2024	通用时间序列预测	把时序当 token，decoder-only

AlphaFold 2 的 Evoformer 是一个很好的案例——它说明即使在最需要领域知识的科学问题上，Transformer 依然是主干；领域知识以"加在 attention 里的几何偏置"形式融入：

# 简化版 Evoformer block
class EvoformerBlock(nn.Module):
    def forward(self, msa, pair):
        # MSA 方向：在多序列对齐上做 attention（行注意力 + 列注意力）
        msa = msa + self.row_attn(msa, bias=pair)        # pair → attention bias
        msa = msa + self.col_attn(msa)
        msa = msa + self.mlp(msa)
        # Pair 方向：把 MSA 的统计投回残基对表征
        pair = pair + self.outer_product_mean(msa)
        pair = pair + self.triangle_attn(pair)           # 三角形 attention（几何一致性）
        return msa, pair

注意 attn(..., bias=pair)——领域知识不是替代 Transformer，而是写进 attention 的 bias 项。 这是跨领域的通用模式：Transformer 是画布，领域知识是笔触。

4. 统一视图：所有 SOTA 都长成 `CodeGPT.forward` 的样子

把上面所有模型的主干精简到本质，你会发现它们都写成同一个模板：

# 通用 Transformer 主干 —— 对照 model.py:177-198
def forward(self, raw_input, *conditioning):
    # === 步骤 1：把输入变成 (B, T, C) 的 token 序列 ===
    #   - 代码：wte(idx)               [本项目]
    #   - 图像：patch_embed(image)     [ViT]
    #   - 语音：conv_subsample(mel)    [Whisper]
    #   - 驾驶：bev_projection(cams)   [BEVFormer]
    #   - 动作：action_tokenizer(traj) [RT-2]
    #   - 蛋白质：wte(amino_acids)     [ESM]
    x = tokenize_any_modality(raw_input)

    # === 步骤 2：加位置信息 ===
    x = x + pos_encoding              # 可学习 / 正弦 / RoPE / ALiBi 不重要

    # === 步骤 3：L 层 Block —— 所有领域完全一致 ===
    for block in self.blocks:         # 就是 model.py:93-105 的 Block
        x = block(x)                  #   attn + mlp + 残差 + LayerNorm

    # === 步骤 4：任务头 ===
    x = self.ln_f(x)
    return task_head(x)               # lm_head / cls_head / regression_head

变的只是"步骤 1"和"步骤 4"。中间 90% 的参数、90% 的 FLOPs、90% 的代码完全一样。

这就是 TRANSFORMER_FROM_VISION.md 末尾"柏拉图表征假说"在工程上的映射：不同模态的模型在表征层面收敛，是因为它们在架构层面已经是同一个架构——只是 embedding 入口和 head 出口不同。

5. 为什么会收敛到同一架构？工程、经济、理论三重解释

工程解释：CUDA kernel 的复用

当 Flash Attention 2 发布时，所有领域的模型一起加速 2-4 倍。当 torch.compile 成熟时，所有领域一起受益。当 H100 / H200 推出时，所有领域一起 scaling。

这是一个正反馈： - 使用 Transformer 的人越多 → 投入到 kernel / 硬件 / 编译器的优化越多 - 优化越多 → Transformer 跑得比其他架构快 10×-100× - 跑得快 → 大家更愿意用 Transformer → 回到起点

CNN 也曾是受益者（cuDNN 的卷积优化），但卷积对硬件的压力没有 attention 大，优化收益边际递减。Transformer 正好踩在了 GPU 架构的甜蜜点。

经济解释：一个团队、一套基础设施

一家公司如果语音团队用 Conformer、视觉团队用 CNN、NLP 团队用 BERT、驾驶团队用 HydraNet，就要维护四套完全不同的训练框架、部署管线、性能优化、数据流水线。

换成 Transformer 之后：

一套 FSDP / DeepSpeed 训练框架
一套 vLLM / TensorRT-LLM 推理框架
一套 tokenization / 数据分片协议
一套 checkpoint / 加载 / 恢复逻辑（参考 train.py 里 _orig_mod. 前缀的处理，现在是全行业标准）

工程成本砍掉 75%。 这是 Transformer 胜利的非技术原因，但它和技术原因一样重要。

理论解释：通用近似 + 可 scaling

Transformer 已被证明是序列到序列的通用函数近似器（Yun et al., 2020），这一点 RNN 也有。但 Transformer 的特殊在于：它的近似能力随模型规模的增长是平滑、可预测的——这就是 Scaling Law（Kaplan et al., 2020；Hoffmann et al., 2022）。

一个你能提前算出要花多少钱、能达到多少性能的架构，在工业界是无敌的。没人想投 1000 万美元训一个不知道能不能比 baseline 强 2% 的架构。

6. 诚实声明：Transformer 还没完全吃掉的地方

科学 always 允许反例存在，以下是 2026 年仍未被 Transformer 完全统治的领域：

领域	为什么 Transformer 还没赢	当前 SOTA
极长上下文（百万 token 以上）	`O(T²)` 的 attention 成本	Mamba / S4 / RWKV 等 SSM；或 hybrid（e.g. Jamba）
实时边缘推理	参数量大、KV cache 显存高	蒸馏小模型 + CNN 混合
精确物理模拟	需要严格几何/物理约束	PINN / Graph Networks（但正在被吸收进 Transformer）
强化学习（特定领域）	样本效率仍不如专门算法	MuZero / Dreamer

但注意：这些反例中的大多数，架构里依然有 attention。Mamba 的作者自己承认"Mamba + attention 混合效果最好"。Jamba 就是这么做的。所以更准确的说法是：Transformer 不是"唯一的架构"，而是"所有架构里都不能没有的基础构件"。

7. 总结：一个架构，一条路径，一个未来

回到本项目。如果你理解了 model.py 里不到 300 行的 CodeGPT，你就已经理解了：

GPT-4 如何写代码——它是 CodeGPT 放大一万倍，加上 RLHF（见 RLHF_AND_PLATONIC_REPRESENTATION.md）
ViT 如何识别图像——它是 CodeGPT 去掉 causal mask，把 wte 换成 patch 卷积
Whisper 如何听懂英语——它是 CodeGPT 把 wte 换成梅尔谱 + 1D conv
Tesla FSD 如何开车——它是多相机 BEV 版的 CodeGPT，输出从 token 变成方向盘
AlphaFold 如何算蛋白质——它是在 attention 里加了几何 bias 的 CodeGPT
RT-2 如何指挥机器人——它是把动作也当 token 的 CodeGPT

视角	统一结论
架构	全是 embedding + L 层 Block + head
训练	全是 `F.cross_entropy(ignore_index=-1)` 或其扩散/对比变体
部署	全是 KV cache + beam search / top-p（见 `model.py:279` 附近）
扩展	全吃 Scaling Law —— 数据、参数、算力三轴

Transformer 不是一个模型，而是一个通用的"表征学习机器"。 它让"学习一种模态"变成了"准备该模态的 tokenizer + head"——学会一种模态之后，其他所有模态的代价几乎只剩数据。

这是深度学习六十年来第一次，不同领域的研究者用同一份代码说同一种语言。如果你问下一个十年的 AI 会长什么样——答案大概率是：同一个 Transformer，吃更多模态的 token，在更大的集群上训更久。

然后，涌现会继续发生。

同一个 Transformer，吃掉一切：为什么语音、图像、自动驾驶、大模型都在用它

1. 一张图：Transformer 统治的版图

2. 为什么 Transformer 能赢？三个根本原因

原因一：最小归纳偏置（Minimal Inductive Bias）

原因二：一切皆可 tokenize

原因三：与硬件的"共谋"——可大规模并行

3. 各领域 SOTA 地图：谁在用 Transformer，怎么用

3.1 语言与代码（大模型）

3.2 图像识别

3.3 图像 / 视频生成

3.4 语音识别与生成

3.5 自动驾驶

3.6 机器人

3.7 科学计算

4. 统一视图：所有 SOTA 都长成 CodeGPT.forward 的样子

5. 为什么会收敛到同一架构？工程、经济、理论三重解释

工程解释：CUDA kernel 的复用

经济解释：一个团队、一套基础设施

理论解释：通用近似 + 可 scaling

6. 诚实声明：Transformer 还没完全吃掉的地方

7. 总结：一个架构，一条路径，一个未来

延伸阅读

4. 统一视图：所有 SOTA 都长成 `CodeGPT.forward` 的样子