日迹

JEPA终于不再崩溃了：LeWorldModel如何用一个正则项取代所有训练技巧

2026-03-26T00:00:00+00:00

关注过LeCun这几年演讲的人应该都知道，他一直在安利一个东西：JEPA（Joint Embedding Predictive Architecture），联合嵌入预测架构。按他的说法，JEPA才是通往AGI的正道：别在像素空间做预测了，应该在紧凑的latent space里学会"想象"世界怎么运转。

想法很好，但实操起来一直很拉胯。

JEPA训练时特别容易崩。大家不得不往上堆各种trick：EMA、stop-gradient、VICReg、辅助任务……本来应该是个很优雅的架构，结果被糊成了一堆工程补丁。

2026年3月，Mila、NYU和Brown的团队（LeCun也在作者列表里）终于拿出了一个干净的方案：LeWorldModel（LeWM），第一个能从raw pixels端到端稳定训练的JEPA世界模型。不用EMA，不用预训练编码器，不用六七个loss。就两个loss，一个超参数。

论文：Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

JEPA到底在干嘛

先回顾一下JEPA的核心思路。

传统的生成式世界模型（比如Dreamer系列）直接在像素空间做预测：给当前帧和动作，预测下一帧的图像。问题在于模型需要重建完整的像素，包括纹理、光影、背景这些跟"理解物理"没啥关系的东西。

JEPA的做法不一样：不预测像素，预测表征。

图1：LeWM的训练架构。左半部分是编码器-预测器的嵌入学习，右半部分是SIGReg正则化的工作原理：通过随机投影和正态性检验来保证嵌入分布不退化。

具体来说分三步：

编码器 $f_\theta$ 把观测 $o_t$ 映射到低维向量 $z_t$
预测器 $g_\phi$ 接收当前表征 $z_t$ 和动作 $a_t$，预测下一步的表征 $\hat{z}_{t+1}$
训练目标就是让 $\hat{z}{t+1}$ 尽量接近真实编码 $z{t+1} = f_\theta(o_{t+1})$

写成公式：

\[\mathcal{L}_{\text{pred}} = \|\hat{z}_{t+1} - z_{t+1}\|^2_2\]

就是个MSE。latent space里做预测只要算192维的向量运算，不需要重建 $224 \times 224 \times 3$ 的像素。信息量压缩了大概200倍。

核心问题：表征坍缩

如果loss只有上面这个MSE，训练会怎样？

模型会直接崩掉。

这就是JEPA领域老生常谈的表征坍缩（representation collapse）。

原因不难理解：编码器和预测器是一起训练的。如果编码器学会了"偷懒"，不管输入啥图都输出同一个常数向量，那预测器的活就太简单了（永远输出那个常数就行），MSE自然为零。

好比一个学生发现"答案全选A"就能拿满分。loss降到零了，但啥也没学到。

以前怎么解决的

为了对抗坍缩，前人搞出了一整套技术栈：

技巧	原理	问题
Stop-gradient	目标编码器不回传梯度	端到端训练被打断
EMA	目标编码器用上下文编码器的指数移动平均	引入延迟，动量系数要调
VICReg	加方差/不变性/协方差三个正则	多3个超参数
预训练编码器	直接冻结DINO/DINOv2	编码器没法适配下游任务
辅助任务	同时训练逆动力学模型等	增加计算开销和超参数

拿目前唯一的端到端方案PLDM来看，它的训练目标长这样：

图2：各方法对比。PLDM用了7个loss（预测损失、方差/协方差正则及时序变体、逆动力学损失）和6个超参数 $(\alpha, \beta, \gamma, \zeta, \nu, \mu)$。LeWM只有1个。

7个loss，6个超参数。搜索空间 $O(n^6)$。这不是在做research，这是在炼丹。

LeWM的做法：SIGReg

LeWM的核心贡献一句话就能说清：

用SIGReg正则化替掉所有反坍缩trick，实现纯端到端训练。

总loss就两项：

\[\mathcal{L}_{\text{LeWM}} = \mathcal{L}_{\text{pred}} + \lambda \cdot \text{SIGReg}(Z)\]

超参数只有一个 $\lambda$（默认0.1）。

SIGReg是什么

SIGReg全称Sketched Isotropic Gaussian Regularization，做的事情是强制编码器输出的分布接近标准正态 $\mathcal{N}(0, I)$。

为什么这就能防坍缩？

想一下：如果所有嵌入都坍缩到同一个点，分布退化成delta函数，离高斯分布十万八千里。所以只要惩罚"不像高斯"的程度，坍缩在数学上就被排除了。

但192维空间里直接检验一个分布是不是高斯，计算上做不到。

Cramér-Wold定理

SIGReg巧妙地利用了一个经典结论，Cramér-Wold定理：

一个随机向量如果在所有一维投影上都是高斯的，那联合分布一定是高斯。

基于这个定理，SIGReg的做法是：

从单位球面 $\mathbb{S}^{d-1}$ 上随机采 $M$ 个方向 $u^{(m)}$（默认 $M = 1024$）
把所有嵌入 $Z$ 投影到每个方向上：$h^{(m)} = Z \cdot u^{(m)}$
对每个一维投影，用Epps-Pulley检验度量它跟标准正态的偏离
对所有投影的统计量取平均

\[\text{SIGReg}(Z) = \frac{1}{M} \sum_{m=1}^{M} T(h^{(m)})\]

其中 $T$ 是Epps-Pulley检验统计量，通过比较经验特征函数和标准正态的特征函数算出来：

\[T^{(m)} = \int_{-\infty}^{\infty} w(t) \left| \varphi_N(t; h^{(m)}) - \varphi_0(t) \right|^2 dt\]

$\varphi_N$ 是经验特征函数，$\varphi_0$ 是标准正态的特征函数，$w(t)$ 是权重函数。

几个重要性质：

计算复杂度是线性的：对嵌入维度和样本数都是线性，没有维度灾难
梯度有界：梯度和曲率都有理论上界，训练稳定
充分条件：$\text{SIGReg}(Z) \to 0$ 时，Cramér-Wold定理保证联合分布收敛到 $\mathcal{N}(0, I)$

架构细节

编码器：ViT-Tiny

骨干：ViT-Tiny，约5M参数
Patch size：14
层数：12层，3个attention head
隐藏维度：192
输出：取[CLS] token → 1层MLP + BatchNorm → 嵌入 $z_t$

为什么要加这个MLP？因为ViT最后一层有LayerNorm，会干扰SIGReg的优化。加一层投影就绕过去了。

论文也试了ResNet-18当backbone，性能差不多，说明这个方法对架构选择不太敏感。

预测器：Transformer

参数量：约10M
层数：6层Transformer，16个attention head
Dropout：10%
输入：$N$ 帧历史表征序列
输出：自回归预测下一帧嵌入
动作注入：用AdaLN（Adaptive Layer Normalization）

AdaLN不是简单地把动作concat到输入里，而是让动作去调制每层归一化的scale和bias。这个做法在DiT等扩散模型里已经被验证过了。

一个值得注意的细节：AdaLN参数初始化为零。训练初期预测器接近恒等映射，有助于稳定训练。

规划：在latent space里"想象"

LeWM训练好以后，可以直接做视觉规划。给一张起始图 $o_1$ 和一张目标图 $o_g$，模型需要找出一组动作把agent从起点带到终点。

图3：LeWM的规划流程。编码器把起始和目标映射到latent space，预测器链式推演候选动作序列，CEM优化器选出最优动作。

整个过程都在192维latent space里完成，不碰像素：

编码起始帧 $z_1 = f_\theta(o_1)$，编码目标帧 $z_g = f_\theta(o_g)$
用CEM（Cross-Entropy Method）搜索动作序列：
- 采样300条候选动作序列
- 在latent space里链式推演：$\hat{z}{t+1} = g\phi(\hat{z}_t, a_t)$
- 算末状态到目标的距离：$C = |\hat{z}_H - z_g|^2_2$
- 取top-30的elite序列，更新采样分布
- 迭代30轮
用MPC（模型预测控制）：只执行前 $K$ 步，重新观测后再重新规划

因为都是低维运算，规划速度很快，不到1秒就能跑完，比DINO-WM快了48倍。

实验结果

图4：四个评估环境，涵盖2D导航、2D操控和3D机器人控制。

规划性能

先看最能体现操控能力的Push-T任务：

图5：Push-T任务规划成功率。LeWM（红色，96%）大幅领先所有baseline，包括用了1.24亿图像预训练的DINO-WM（74%）和7个loss的PLDM（78%）。

LeWM拿了96%成功率，比PLDM高18个点，比DINO-WM高22个点。DINO-WM可是用了在1.24亿张图上预训练过的DINOv2编码器。

各任务完整对比：

任务	LeWM	DINO-WM	PLDM	说明
Push-T	96%	74%	78%	最佳
Reacher	最佳	次之	较弱	超过两个baseline
OGBench-Cube	次之	最佳	—	3D视觉复杂，DINO预训练有优势
Two-Room	87%	100%	97%	固有维度低，SIGReg的已知局限

Two-Room上的劣势值得说一下：这个环境就是个简单的2D导航，数据内在维度很低。SIGReg强制嵌入服从全维度高斯，在低维问题上会引入多余的约束。论文对此也做了坦诚的讨论。

规划速度

LeWM的规划不到1秒，DINO-WM要约47秒，差了48倍。原因是192维的嵌入太紧凑了，DINO-WM的token数大概是LeWM的200倍。

学到的表征有物理意义吗

一个关键问题：latent space里学到的表征，到底编码了啥？

物理量线性探测

作者用简单的线性/MLP探针从表征中预测物理量（agent位置、物块位置、物块角度）。结果LeWM全面优于PLDM，和DINO-WM打得有来有回（后者毕竟有大规模预训练加持）。

违反预期实验

更有意思的是Violation-of-Expectation实验：给模型看正常轨迹和异常轨迹（比如物体瞬移），观察模型的预测误差（"惊讶程度"）。

结果是LeWM对物理违规（瞬移）的惊讶信号显著更高（$p < 0.01$），但对纯视觉变化（换颜色）反应不大。说明模型确实在学物理结构，而不只是在记像素pattern。

涌现特性

论文里有几个有趣的发现，都不是训练目标里显式要求的：

轨迹"拉直"

训练过程中，latent space里相邻时间步的速度向量方向会逐渐对齐，轨迹越来越"直"。没有加任何时序平滑正则，这个行为是自己冒出来的，而且比PLDM（有显式时序正则）还强。

说明模型自发学出了一种让动态预测更简单、更线性的状态表示。

从嵌入重建图像

作者在训练完成后额外训了一个轻量解码器，从192维嵌入重建视觉场景：

图6：解码器可视化。随着训练推进（0步→200k步），192维嵌入重建出的图像从噪声逐渐变清晰。注意训练目标里根本没有重建loss，这些视觉信息是为了预测动态而"附带"学到的。

训练时完全没有重建loss，但解码器居然能从192维向量里恢复出清晰的场景。嵌入确实捕获了丰富的视觉和物理信息。

latent space的几何结构

t-SNE可视化也能看出来：

图7：Push-T任务的物理状态网格（左）和latent space投影（右）。颜色编码物理位置。latent space保持了物理空间的拓扑关系，这种保距映射是自发涌现的。

物理空间的邻近关系在latent space里被忠实地保持了下来。

预测器的"想象力"

把预测器做开环推演（给定初始状态后连续预测多步，中间不给真实观测），能直观看到模型的"想象"能力：

图8：开环推演可视化（用post-hoc解码器重建）。上排是真实观测，下排是模型的"想象"。Context Input是输入帧（$t=0$），后面的帧完全由模型自回归生成。

即使推演很多步，"想象"出来的场景仍然保持物理合理性。

总结

LeWM的意义不只是做出了一个更好的世界模型，更重要的是它对JEPA范式的验证。

之前的情况是：JEPA理论上很漂亮，但训练起来全靠hack。这让人怀疑到底是JEPA本身就有问题，还是我们没找对训练方法。

LeWM的回答很明确：JEPA没问题，问题在训练方法。用对了正则化（SIGReg），JEPA可以很简洁、很稳定地训练。

几个关键数字：

7个loss → 2个
6个超参数 → 1个
47秒规划 → 1秒（48倍加速）
15M参数，1张GPU

这意味着有一张GPU就能在几小时内训出一个能在latent space里做物理规划的世界模型。JEPA从"实验室里的概念验证"走到了"可以真正用起来"。

当然局限也很明显：视觉复杂度高的3D任务不如预训练编码器的方案，固有维度低的简单任务上SIGReg约束过强。但作为第一个真正端到端的JEPA世界模型，它打开的门比关上的多。

LeCun一直在说"未来的AI需要世界模型"。现在他的团队证明了，这些模型确实可以干净利落地训出来。不用炼丹，靠数学就行。

参考文献：Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero. "LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels." arXiv:2603.19312, 2026.

*项目主页：le-wm.github.io

代码：github.com/lucas-maes/le-wm*

一张照片变3D：TripoSG如何用40亿参数重建世界

2026-03-24T00:00:00+00:00

一个你可能没想过的问题

你拍了一张杯子的照片。

你能想象出杯子背面长什么样吗？当然能。你的大脑自动补全了看不到的部分——杯柄的弧度、底部的弧线、杯口的厚度。你甚至不需要想，这些信息就"在那里"了。

但对AI来说，这是一个极其困难的问题。

一张2D照片只包含一个视角的信息——大量几何细节被"压扁"了。让机器从一张照片里"想象"出完整的3D形状，相当于让它解一个信息量严重不足的方程。

这就是单图3D重建领域要解决的核心挑战。

2025年初，来自VAST（Tripo的母公司）、香港中文大学、UT Austin和上海AI Lab的团队，发布了TripoSG——一个40亿参数的生成模型，能从单张图片生成高保真3D网格。不是糊成一团的体素块，而是表面光滑、细节丰富的真实网格。

它是怎么做到的？

TripoSG能处理各种风格的输入——写实照片、卡通角色、概念草图——并生成拓扑完整、细节丰富的3D网格。

先说全景：TripoSG在做什么

在动手拆解技术细节之前，先看清全局。

TripoSG的任务很简单：输入一张图片，输出一个3D网格（mesh）。

但它的实现路径非常优雅，分为两个核心组件：

3D VAE：学会把任意3D形状"压缩"成一串紧凑的数字（潜在向量），也能从数字"解压"回3D形状
Rectified Flow Transformer：学会看一张图片，"想象"出对应的3D潜在向量

先训练VAE，让它学会3D的"语言"。再训练Transformer，让它学会从2D图片"翻译"成3D语言。

最终推理时，图片进去，VAE解码器把Transformer的输出变成3D网格。就这么简单。

TripoSG系统总览。上半部分是数据构建流水线，下半部分是模型架构。注意两条信息流：CLIP提供语义理解，DINOv2提供局部细节。

第一个关键选择：用SDF而不是Occupancy来描述3D

要让AI处理3D形状，首先要选一种"数学语言"来描述它。这个选择至关重要——就像选错了坐标系，后面所有计算都会别扭。

两种语言的对比

Occupancy（占据场）：对空间中的每个点，回答"这里有东西吗？"——是或否，1或0。

SDF（Signed Distance Function，符号距离函数）：对空间中的每个点，回答"这里离最近的表面有多远？"——如果在物体内部，距离为负；外部为正；表面上为零。

区别在哪？

Occupancy是二元的——非黑即白。想象你用马赛克拼一个圆，边缘一定是锯齿状的。

SDF是连续的——它知道"接近表面"和"远离表面"的区别。同样拼一个圆，SDF能告诉你每个像素离圆边有多远，所以提取出的表面自然就是光滑的。

这不是理论上的微小差异。论文的消融实验明确显示：

表示方式	监督方式	Chamfer距离 ↓	F-Score ↑	法线一致性 ↑
Occupancy	交叉熵	较高	较低	较低
SDF	L1+L2	中等	中等	中等
SDF	L1+L2 + 法线 + Eikonal	4.57	0.999	0.957

SDF加上完整监督，在所有指标上都碾压Occupancy。

直观对比不同表示和监督方式的重建效果。注意Occupancy的表面锯齿和SDF逐步改进的光滑度。最右列（完整SDF监督）的细节最为丰富。

三重监督：让SDF学得更好

TripoSG不只用简单的"预测值 vs 真实值"来训练SDF。它用了三种互补的损失函数：

L1 + L2 距离损失：最基本的——预测的距离值要接近真实值。L1管大误差不跑太远，L2管小误差更精确。

法线引导损失（Surface Normal Loss）：SDF的梯度方向应该和真实表面法线一致。通俗地说，"距离变化最快的方向"应该正好垂直于表面。这逼迫模型学会精确的表面朝向。

Eikonal正则化：数学上，合法的距离函数必须满足一个性质——梯度的模（大小）处处等于1。你在任何方向走一小步，距离就该变化一小步。这个约束保证SDF场在整个空间内"行为正常"，而不只是在训练采样点附近凑合。

\[\mathcal{L}_{\text{vae}} = \mathcal{L}_{\text{sdf}} + \lambda_{sn}\mathcal{L}_{\text{sn}} + \lambda_{eik}\mathcal{L}_{\text{eik}} + \lambda_{kl}\mathcal{L}_{\text{kl}}\]

三重监督的效果是递进式的：距离损失确定"大致形状"，法线损失雕刻"表面细节"，Eikonal正则化保证"全局一致性"。

第二个关键选择：VAE的Transformer架构

TripoSG的VAE不是传统的卷积网络——而是一个非对称Transformer。

为什么用Transformer？

3D形状不像图片那样排列在整齐的网格上。一个杯子和一把椅子的拓扑结构完全不同。Transformer的自注意力机制天然适合处理这种无序的点集——它不在乎点的排列顺序，只关心点与点之间的关系。

非对称设计

编码器只有8层，解码器有16层。为什么？

因为"压缩"和"还原"的难度不对称。把复杂的3D形状压成紧凑的表示，需要的是抽象和归纳，相对简单。从紧凑的表示还原出每一个表面细节，需要的是想象和补全，难度更大。所以解码器要更"大脑"。

3D VAE架构。编码器（上）将20,480个表面采样点压缩为512/2048个潜在token；解码器（下）接收任意3D查询点，预测其SDF值。注意编码器和解码器之间的层数不对称。

多分辨率训练与外推

训练时，VAE在两个分辨率上交替训练：512个token和2048个token。低分辨率学全局结构，高分辨率学局部细节。

有趣的是，推理时可以外推到4096个token——不需要重新训练。这得益于Transformer对序列长度的天然泛化能力（虽然需要配合时间步移位来保持信噪比一致，后面会讲）。

核心引擎：Rectified Flow Transformer

VAE搞定了3D的"语言"，现在需要一个模型来学会"看图说话"——从2D图片生成对应的3D潜在表示。这就是Rectified Flow Transformer的工作。

为什么不用DDPM？

扩散模型有多种"方言"。TripoSG团队比较了三种：

方法	插值路径	Normal-FID ↓
DDPM	弯曲路径	9.63
EDM	弯曲路径	9.50
Rectified Flow	直线路径	9.47

差异不算巨大，但Rectified Flow有一个本质优势：路径是直的。

从纯噪声到干净数据的插值路径。DDPM和EDM走弯路，Rectified Flow走直线。直线意味着每一步推理都更高效。

通俗理解：想象你要从A点走到B点。DDPM走的是一条弯弯绕绕的曲线——每一步方向都在变，走错一点就偏了。Rectified Flow走的是两点之间的直线——方向明确，即使步子大一点也不容易偏。

这意味着：

推理步数更少：直线路径不需要那么多小碎步来保持方向
训练更稳定：目标更简单——学会沿直线走就行
扩展性更好：更适合大规模模型和高分辨率生成

数学公式也很优美：

\[x_t = t \cdot x_0 + (1-t) \cdot \epsilon\]

t=0时是纯噪声，t=1时是干净数据，中间就是二者的线性混合。模型要学的就是：给定任意中间状态 $x_t$，预测从噪声到数据的"速度向量"。

双编码器条件注入：CLIP + DINOv2

这是TripoSG最精巧的设计之一。

单靠一个图像编码器不够。为什么？因为从图片中提取的信息有两个维度：

语义维度：这是什么东西？一把椅子？一只猫？风格是写实还是卡通？
几何维度：表面纹理如何？边缘在哪里？细节结构是什么样的？

TripoSG的答案是用两个编码器，各司其职：

CLIP-ViT-L/14 → 提供全局语义理解。CLIP是在图文对上训练的，所以它"懂"图片在说什么——对象类别、风格、场景意图。

DINOv2-Large → 提供局部几何细节。DINOv2是自监督训练的视觉基础模型，擅长捕捉局部纹理、边缘和空间结构。

在Transformer的每一个block中，两种特征通过独立的交叉注意力层注入：

Transformer block的内部结构（中间面板b）。注意两个独立的交叉注意力层——一个接CLIP特征，一个接DINOv2特征。这不是简单拼接，而是让模型在每一层独立地"查阅"语义信息和几何信息。

消融实验证实了双编码器的价值：只用DINOv2时Normal-FID为10.69，加上CLIP后降到9.47——提升显著。

Skip Connection：借鉴U-Net的智慧

TripoSG的Transformer采用了一个关键设计：编码器-解码器之间的跳跃连接。

结构是10层编码器 + 1层中间层 + 10层解码器 = 21个Transformer block。编码器第i层的输出直接加到解码器第(N-i)层的输出上：

\[Z_{DB}^{(N-i)} = DB^{(N-i)}(Z_{DB}^{(N-i-1)}) + EB^{(i)}(Z_{EB}^{(i-1)})\]

这和U-Net的设计思想完全一样：浅层保留细节（高频信息），深层捕获语义（低频信息），跳跃连接让两者融合。

在消融实验中，跳跃连接的贡献是所有架构改进中最大的。

Logit-Normal时间步采样

训练时，不同的时间步（噪声程度）难度不同。t接近0或1时（接近纯噪声或纯数据），模型"猜"起来比较容易。最难的是中间地带——半噪声半信号，模型需要在模糊中找到结构。

TripoSG用logit-normal分布来采样时间步，让训练重点集中在这些"困难"的中间阶段：

\[\pi_{\text{ln}}(t; m, s) = \frac{1}{s\sqrt{2\pi} \cdot t(1-t)} \exp\left(-\frac{(\log \frac{t}{1-t} - m)^2}{2s^2}\right)\]

效果：更多的训练算力花在最需要学习的地方。

MoE：用40亿参数但不多花推理成本

模型大了效果好，这不是新闻。但模型大了推理也慢——这是问题。

TripoSG的解决方案是Mixture of Experts (MoE，混合专家)。

核心思想：把一个大的FFN层拆成8个"专家"，每次推理时只激活其中2个。这样参数总量是40亿，但实际计算量接近15亿——参数多了2.5倍，速度几乎没变。

具体实现：

只在最后6个解码器层使用MoE
每层8个专家FFN + 1个共享专家（所有token都经过）
Top-2路由：每个token动态选择2个最相关的专家
辅助负载均衡损失：防止所有token都挤到同一个专家

这不是随意的选择。MoE放在解码器后半部分，因为那里负责生成最细致的几何细节——正是需要"专业分工"的地方。

数据：最重要的一环

论文里最让人震撼的一个数字：数据从18万扩到200万后，Normal-FID从7.94降到3.36。

这个提升幅度远超所有架构改进之和。换句话说，你可以把架构做得很精巧，但如果数据不够好不够多，都是白搭。

四阶段数据流水线

TripoSG从Objaverse-XL和ShapeNet收集了约1000万个原始3D模型。但绝大多数质量堪忧——破面、翻面、多物体堆叠、没有纹理的光秃秃几何体。怎么办？

数据清洗流水线的四个阶段。注意每个阶段都有具体的质量控制措施。最终从1000万原始数据中筛选出200万高质量训练样本。

阶段一：评分

请20位专业3D建模师手动给约1万个参考模型打分（1-5分）。然后训练一个简单的线性回归模型——输入是CLIP+DINOv2特征（从多视角法线图提取），输出是质量分数。用这个自动评分器给所有1000万个模型打分。

这个方法很聪明：用少量人工标注训练自动评分器，然后规模化。

阶段二：过滤

删除带大平面底座的模型（通过表面patch分类）
排除有动画渲染错误的模型
过滤多物体堆叠（通过连通分量分析）

阶段三：修复和增强

朝向校正：角色模型可能面朝任意方向。用24个候选朝向渲染6视图，训练DINOv2分类器选最正确的
纹理生成：对没有纹理的模型，用ControlNet++从多视角法线图生成RGB纹理

阶段四：SDF场生产

非水密网格通过UDF（无符号距离场）在 $512^3$ 体素网格上转换为水密网格
Marching Cubes提取等值面
环境遮挡过滤去除内部结构
采样表面点、近表面点和随机体积点，配上法线

最终：1000万 → 200万高质量3D对象，每个都配有图像和SDF场数据。

渐进式训练：小步快跑

TripoSG不是一上来就训练40亿参数的4096-token模型。它分三个阶段：

阶段	分辨率	参数	学习率	步数	数据量
1	512 tokens	15亿 (Dense)	1e-4	70万	200万
2	2048 tokens	15亿 (Dense)	5e-5	30万	200万
3	4096 tokens	40亿 (MoE)	1e-5	10万	100万（精选）

第一阶段学全局结构，第二阶段学局部细节，第三阶段上MoE并在最高分辨率上精调。

注意第三阶段只用了100万数据——这是200万中进一步精选的高质量子集。在最精细的分辨率上，数据质量比数量更重要。

总计算量：160块A100 GPU，约3周。

分辨率移位：一个被低估的技巧

切换分辨率时，信噪比会变。512个token时的"30%噪声"和4096个token时的"30%噪声"含义不同——token越多，每个token携带的信息越少，同等噪声级别下信号衰减得更厉害。

TripoSG用一个简单的移位公式来补偿：

\[t_m = \frac{\sqrt{m/n} \cdot t_n}{1 + (\sqrt{m/n} - 1) \cdot t_n}\]

其中m是当前分辨率，n是基准分辨率。这保证了不同分辨率下噪声调度的等效性。

实验结果：全面领先

定量评估

TripoSG提出了一个新的评估指标Normal-FID：从相同视角渲染生成模型和真实模型的法线图，计算FID。这个指标专门度量几何质量，不受纹理干扰。

消融实验的全景：

配置	Normal-FID ↓
只用DINOv2，无skip connection	10.69
CLIP+DINOv2，DDPM	9.63
CLIP+DINOv2，EDM	9.50
CLIP+DINOv2，Rectified Flow	9.47
512 tokens	9.47
2048 tokens	8.38
4096 tokens	8.12
4096 tokens + MoE (40亿参数)	7.94
完整TripoSG (200万数据)	3.36

读这个表的方式：从上到下，每一行都是在上一行基础上做了一个改进。最后一行的飞跃（7.94 → 3.36）来自数据量的扩大——这是全表中最大的单项提升。

GPTEval3D：多维度AI评估

论文还使用了基于大语言模型的评估（用Claude 3.5 Sonnet打分），从5个维度综合评判：

GPTEval3D雷达图。TripoSG（最外圈）在所有5个维度上都达到了最高分：3D合理性、文本对齐、几何细节、纹理细节、纹理-几何一致性。

定性对比

和现有方法的直接比较更为直观：

与现有方法的定性对比。注意TripoSG在细节保真度上的优势——衣物褶皱、面部特征、配饰结构都显著优于其他方法。

技术洞察：TripoSG教给我们什么

1. 数据 > 架构

这是TripoSG最重要的教训。所有架构改进加在一起（双编码器、skip connection、rectified flow、MoE）把Normal-FID从10.69降到7.94——改善了约26%。而数据从18万扩到200万，直接把7.94降到3.36——改善了58%。

这不是说架构不重要。没有好的架构，模型连18万数据都学不好。但它提醒我们：在架构已经"够用"之后，数据质量和规模才是真正的天花板。

2. SDF是3D生成的正确语言

Occupancy场的二值性从根本上限制了表面质量。SDF加上梯度域监督（法线+Eikonal），提供了一种既精确又稳定的3D表示。这可能会成为后续3D生成工作的标准选择。

3. 稀疏MoE是缩放3D模型的高效路径

从15亿到40亿参数，MoE只增加了约10%的推理开销。这种"参数多但计算少"的scaling策略特别适合3D生成——因为3D推理本身就很重（要查询大量3D点），参数扩展如果同步带来计算暴增是不可接受的。

4. 渐进式训练是实际可行的唯一路径

直接在最高分辨率（4096 tokens）上从头训练40亿参数模型，在当前的硬件条件下几乎不可行。渐进式策略——先低分辨率小模型，再高分辨率大模型——是工程上的必然选择。这也是大模型训练（LLM、图像生成）中反复验证过的经验。

TripoSG之后：3D生成的下一步

TripoSG解决了"从单张图片生成高质量3D几何"的问题，但3D生成领域还有几个重要的开放方向：

纹理与材质：当前的3D生成模型（包括TripoSG）在几何上已经很好，但纹理生成仍然依赖后处理流水线（如多视角纹理投影）。端到端生成几何+纹理仍是活跃的研究方向。

物理属性：游戏和仿真需要的不仅是"看起来像"——还要质量、摩擦系数、弹性模量。这需要更丰富的3D表示。

可编辑性：生成的3D资产需要能被艺术家修改。当前的隐式表示（SDF/NeRF）在可编辑性上远不如传统的多边形建模。这是实际应用中的主要瓶颈。

多视角一致性：从不同角度看，生成的3D模型应该和所有可用的参考图一致。单图输入的信息不足问题，可能需要结合视频输入或多图输入来进一步缓解。

总结

TripoSG的核心贡献，用一句话概括：

用Rectified Flow在SDF潜在空间上做生成，配合CLIP+DINOv2双条件注入和MoE稀疏扩展，加上200万高质量3D数据，实现了单图到高保真3D网格的SOTA生成。

但如果只记住一件事，那就是：

在3D生成这个领域，200万精心策展的数据比任何架构创新都重要。

这与Sutton的"苦涩教训"一脉相承——长期来看，利用计算和数据的通用方法，总会胜过精巧的手工设计。TripoSG的架构确实精巧，但它最大的护城河，是那条从1000万原始数据中淬炼出200万高质量样本的数据流水线。

论文链接：TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models

代码开源：github.com/VAST-AI-Research/TripoSG（MIT License）

在线体验：Hugging Face Space

当AI开始做科研：Karpathy的autoresearch与researcher的未来

2026-03-13T00:00:00+00:00

一段讣告，写在README里

Karpathy在autoresearch项目的README里放了一段"虚构的序章"，我第一次读到时愣了几秒：

"One day, frontier AI research used to be done by meat computers in between eating, sleeping, having other fun, and synchronizing once in a while using sound wave interconnect in the ritual of 'group meeting'. That era is long gone. Research is now entirely the domain of autonomous swarms of AI agents running across compute cluster megastructures in the skies."

"肉质计算机"（meat computers）。在进食、睡眠、娱乐之间的间隙做研究，偶尔用声波互联——也就是开组会——来同步进展。

这是Karpathy在给今天的科研方式写一段未来视角的回忆。

语气轻巧，但刀子很锋利。

autoresearch是什么

2026年3月，Karpathy开源了autoresearch。项目本体只有630行Python，但它做的事情足够清晰：把一个AI agent扔进一个真实的LLM训练环境，让它自主做实验，整夜不停地跑。

具体机制很优雅：

prepare.py：数据准备，固定不动
train.py：GPT模型、优化器、训练循环——agent唯一可以修改的文件
program.md：用Markdown写的研究方向说明，由人类来维护

Agent每一轮的工作流程是这样的：读取当前代码 → 提出一个改进假设（比如调整学习率、修改架构深度、换一个归一化方式）→ 修改train.py → 训练5分钟 → 用validation bits-per-byte评估效果 → 决定保留还是回滚 → 进入下一轮。

每小时约12个实验，一夜约100个。

你早上醒来，打开日志，看看agent发现了什么。

它已经在产生结果

这不是纯粹的概念验证。在nanochat这个小型LLM训练任务上，autoresearch已经找到了让训练速度提升11%的方案。Shopify CEO Tobi Lutke把这个框架用到内部项目上，agent通过迭代一个小型模型架构，验证集分数提升了19%——这个agent优化过的小模型，最终甚至超越了用传统方法配置的更大模型。

项目上线几天，GitHub star数过了8000。

为什么这件事比看起来更重要

autoresearch当然有它的局限。630行，单GPU，只能跑5分钟的小实验。它不能替代需要大规模算力、长周期验证、多模态数据的前沿研究。

但它代表的范式值得认真对待。

这里有必要先聊一下AutoML——因为"自动化机器学习"这件事并不新鲜。过去十年，AutoML做的是把超参数搜索（HPO）和神经架构搜索（NAS）自动化：给定一个搜索空间，用贝叶斯优化或进化算法在里面找最优解。Google的AutoML、微软的NNI、H2O都走过这条路。

但AutoML有一个根本性的限制：搜索空间必须由人预先定义。你告诉它"学习率在1e-4到1e-2之间搜"，它就在这个范围里转。你告诉它"在ResNet和EfficientNet之间选"，它就在这两个架构里比较。它优化的是人类已经想到的选项。

autoresearch做的是另一件事。agent读取train.py，理解整个训练流程，然后自己生成代码修改——它可以换优化器、重写归一化层、调整注意力机制、引入新的正则化策略。搜索空间不是预先定义的，它是agent在理解代码之后即兴发明的。

这是从"在格子里找答案"到"自己发明新格子"的跃迁。

传统的ML研究工作流大概是这样的：

读论文，形成直觉
提出假设
写代码实现
跑实验（可能要等几天）
分析结果
循环

AutoML自动化了步骤4的一部分（跑实验、比较结果）。而autoresearch把步骤2、3、4、5全部外包给agent，让人类只负责步骤1，也就是"提出正确的问题"。

有篇文章的标题说得很准确：The Researcher's New Job Is Writing the Spec（研究者的新工作是写规格说明）。

插曲：vibe coding到vibe research

过去一年，"vibe coding"这个词进入了软件圈的日常词汇——用Claude Code或Cursor随手描述一个想法，让AI帮你生成、调试、迭代代码，自己不一定要看懂每一行。

autoresearch让我意识到，同样的事情正在发生在研究领域，可以叫它"vibe research"。

你不需要亲手跑每一个消融实验。你需要的是：对问题有足够清晰的直觉，知道应该往哪个方向探索，然后把这个方向写成program.md，让agent去执行。

工具在变，但有一件事没变：能提出好问题的人，依然是稀缺资源。

只是现在，提出一个好问题的杠杆效应，被放大了几十倍。

研究者的存在意义，重新审视

那么，在autoresearch这类工具存在的世界里，researcher的价值在哪里？

我觉得有几件事是agent目前做不到的，也许相当长时间内都做不到：

1. 定义"有意义"的问题

autoresearch的agent非常擅长在给定的搜索空间里寻找局部最优。但"搜索空间应该怎么定义"、"这个指标真的是我们想优化的吗"——这些问题需要对更大图景的理解。一个agent可以把val_bpb降低11%，但它不知道这个模型最终是否被部署在了一个有意义的地方。

2. 跨领域的类比直觉

很多重要的科学突破来自于："这个问题和那个完全不同领域的问题长得很像"。这种跨域类比依赖于人类积累的、凌乱的、碎片化的知识背景。它很难被写进program.md。

3. 承担认识论风险

提出一个反主流的假设，是需要承担声誉风险的。Agent没有声誉，所以它也没有理由去探索"这个想法可能让我在社区里显得很蠢"的方向。而这些方向，有时候恰恰是真正的突破口。

4. 与物理世界和人的交互

科学不只是优化一个指标。它涉及实验设计、数据收集、与同行的争论、向决策者的解释、对伦理边界的判断。这些都是深度嵌入在社会关系里的工作。

社会分工将如何变化

历史上每一次工具革命，都会重塑劳动分工。

印刷机让"抄写员"这个职业消失，但让"编辑"、"作者"、"出版商"等新角色涌现。电脑消灭了大量"计算员"（computer最初是一种职业），但催生了软件工程师。

我的猜测是，AI在科研领域的渗透，会产生几种结构性变化：

从"宽度"到"深度"的分工

以前，一个researcher需要既会提假设，又会写代码，又会分析数据，还得会写论文、做报告。这些技能的"宽度"是必要的，因为你需要自己完成整个链路。

当执行层可以外包给AI，人类的稀缺性将越来越集中在"能提出正确问题"这一点上。分工会变得更垂直：懂某个领域够深的人，和能够与AI系统有效协作的人，会越来越值钱。两者结合在一起，更值钱。

"实验资源"的民主化

现在，做一个像样的ML实验需要大量GPU资源，这是很高的门槛。autoresearch把实验范式缩减到了单GPU、5分钟一轮。这意味着一个个人研究者、一个小课题组，现在可以在睡觉的时候让AI帮自己跑一百个实验。

这不会改变大机构的算力优势，但会让资源有限的小团队也能大量试错——以前要跑一周的一批实验，现在让AI跑一晚上就够了。

"研究"与"工程"的边界模糊化

当一个工程师可以用program.md描述一个研究想法，让autoresearch整夜跑验证，他和一个"研究员"之间的界限，其实已经没那么清晰了。

这不是说工程师会取代研究员，而是说：那条把"给idea"和"跑实验"分开的界线，正在被工具侵蚀。 未来更可能是：能够跨越这条线的人，借助AI工具，同时扮演这两个角色。

评估与质量控制成为新瓶颈

如果AI能生成大量实验结果，那么"判断哪个结果值得深入追究"就成了新的稀缺能力。实验的产出速度超越了人类审阅研究结果速度，我们需要新的方法论来处理这种"结果洪流"。

尾声："组会"的消亡与保留

Karpathy的那段虚构序章里，他嘲笑了"group meeting"这种用声波互联同步知识的仪式。

我觉得他说对了一半。以"汇报进展、分配任务"为核心的组会，确实正在变得低效，如果AI可以整夜做你本来要花一周准备的实验，那为什么还需要每周开一次会讨论"上周跑了什么实验，结果怎样"？

但以"碰撞直觉、校准认识论"为核心的交流，不会消失。那种"我突然觉得这个方向可能错了"的感觉，和那种"你这个想法和我最近想的一件事有点像"的感觉，才是组会里最有价值的部分。我们可能不再需要每周的"结果汇报会"，但我们更需要不定期的"直觉碰撞会"。

研究的核心从来不是跑实验。跑实验只是把脑子里的想法外化的方式。现在，这个外化的过程可以自动化了。但脑子里的想法和直觉，还得你自己来生产。

autoresearch项目地址：github.com/karpathy/autoresearch

计算机视觉的苦涩教训：当"看"与"做"的边界消融

2026-02-27T00:00:00+00:00

原文：The Flavor of the Bitter Lesson for Computer Vision

作者：Vincent Sitzmann（MIT CSAIL 助理教授）

发表日期：2026 年 2 月 1 日

全文翻译

我认为，我们所熟知的计算机视觉即将走到尽头。

长期以来，我们把视觉当作一种从图像到中间表征的映射——分类、语义分割、三维重建。但在苦涩教训的时代，这些任务正在变得和边缘检测没什么两样：都是历史遗留的产物，本质上只是在"划定能解的中间问题"，而不是在解决智能本身。

NLP 已经迎来了属于自己的"LLM 时刻"——语言建模就是终极目标，大家心里有数。但视觉社区还在争论：属于我们的那场革命，到底长什么样？我们还在为点追踪、分割、3D 重建这些具体任务微调模型——与此同时，世界模型已经破土而出，它绕过了一切传统的中间表征，径直去解决一个远比我们过去做的所有工作都更宏大的问题。

这篇文章的核心论点是：计算机视觉的未来，在于成为端到端感知-行动循环的一部分。计算机视觉、机器人学习、控制——这些领域之间的历史边界将不复存在。前沿研究不会再区分"看"和"学会行动"。

作为一个具体的例子，我会谈到 3D 表征正在衰落：我的预测是，就像我们已经不再为检测任务手工设计特征一样，我们很快也不会再把 3D 当作具身智能的组成部分。

计算机视觉的范畴是怎么来的

要看清这个领域往哪走，不妨先问一个根本的问题：视觉到底是什么？

过去，我们把视觉当作智能系统里"视觉感知"这个子模块——常常概括为"知道什么东西在什么地方"。但仔细想想，这并不是一个定义清楚的任务。输入是图像或视频，没问题——但输出是什么？它没有给出一个可以严格证伪的输入-输出规范，因此也就谈不上被彻底"解决"。

在真实世界里，感知有一个清晰得多的衡量标准：能不能做出聪明的行动。如果一个智能体能把当前和过去看到的东西，转化为达成目标的动作——尤其是在从没见过的新环境中——那它就算成功地感知了世界。这个标准很好检验：我给机器人演示一下怎么收拾洗碗机，然后看它能不能做到。做到了，说明它确实看懂了该看的东西。

那我们为什么没有一开始就从这里切入？因为在过去，直接学习感知-行动循环根本行不通。科学家的工作是解决当下能解的问题，于是我们把计算机视觉单独拎了出来。整个社区收敛到一个方向：做把图像映射到各种看起来有用的中间表征的算法——分类、分割、光流、3D 重建、SLAM。

与此同时，机器人学习和控制被定义成另一件事：接收这些特定表征（点云、边界框、掩码），然后把它们映射成动作。

这种拆分在当时是必要的妥协。但我认为，这种具身智能的"模块化"思路，正在迅速失去存在的理由。

案例：3D 表征为何可能变得多余

Rich Sutton 的苦涩教训说："利用大规模算力的通用方法，最终总会胜过精心设计的、针对特定任务的系统——哪怕后者一开始看起来更巧妙。"

在计算机视觉里，大多数研究者很乐意把这个教训用在算法上，承认带物理归纳偏置的神经网络很难 scale。但奇怪的是，很少有人把同样的逻辑用在表征上。

想想 3D 表征——不管是点云、辐射场、SDF 还是体素网格。再想想具身智能的基本循环：感知进来，行动出去。既然我们已经可以端到端地训练算法来直接完成这件事，那么手工设定一个像"3D 结构"这样的显式中间表征，恰恰就是苦涩教训所警告的那种"看起来聪明的人为瓶颈"。

不信的话，做个思想实验。看看你现在坐的这间屋子。假设我给你一个完美的 3D 重建——NeRF 也好、点云也罢，随你挑——你拿它能干什么？

当然有些小众用途，比如新视角合成。但只要任务涉及到具身智能，你还是得靠另一个智能算法去消化那个 3D 表征、决定下一步怎么做。整个链路的输入-输出始终是"图像→动作"，3D 重建充其量是一个精巧的预处理步骤。放到具身智能的长远尺度上看，这种拆分是撑不住的。

实际上，许多过去被认为离不开 3D 的任务，已经被端到端学习做得更好了。拿新视角合成来说：少样本视角合成的 SOTA 已经有一段时间不用 3D 可微渲染了，取而代之的是生成式世界模型。我的学生 Boyuan 和 Kiwhan 做 History-Guided Video Diffusion 的时候，在 RealEstate10k 上生成的新视角效果远好于我做过的任何 3D 结构化方法——而且这几乎只是他们顺手做的事。

SE(3) 相机位姿也会消失

你可能会说，这些生成模型仍然要以相机位姿为输入条件，而位姿是靠传统多视角几何（COLMAP）或其学习版本算出来的。但我预测，和 3D 表征一样，输出相机位姿的算法也终将过时。我们实验室已经证明，新视角合成可以被纯粹地形式化为一个表示学习问题——完全不需要多视角几何的任何概念。不需要位姿，不需要 3D。

自我运动（ego-motion）说白了就是一个智能体能做的最基本的动作，它没什么特殊的。终有一天，我们要解决的是让 AI 控制一个它从未操纵过的身体——在那个尺度上，推断自我运动只是一个微不足道的子问题。不管我们最终走到什么样的算法，它都会顺带把自我运动处理了，不用我们专门去设计。

想让模型擅长 3D 编辑，就别拿 3D 编辑来训练它

那工程场景呢？建筑、CAD、制造？盖房子或者 3D 打印一个发动机零件，难道不需要显式的 3D 表征吗？在人机交互界面层面，我同意——用 3D 网格加 CAD 编辑器是合理的。但我的论点不在于人怎么跟机器沟通，而在于我们怎么训练出能帮我们自动化 3D 设计的模型。

在这件事上，道理是一样的：要想让模型在操纵物理和数字 3D 对象方面真正厉害，就不该训练它去输出专家设计的 3D 表征，也不该把这种表征写死在架构里。正确的做法是直接用原始数据训练通用物理智能模型，让它自己学出内部的、与任务相关的结构。这些内部表征不需要——也大概率不会——长得像人类定义的任何建模、网格化或重建概念。模型训练好之后，再微调它去对接我们人类习惯用的表征和工具链。

至于最后一步——把东西造出来——短期内我们会在 3D 打印机 API 或网格文件格式上做微调。放到更长远来看，3D 打印机和挖掘机本质上就是机器人：需要 AI 来自动化的物理机器。所以我认为，3D 制造领域的挑战最终会和更广义的具身智能问题一起被解决——把执行器的控制权直接交给 AI。

感知-行动循环与世界模型的核心挑战

具身智能的核心难题是：大规模的感知-行动配对数据根本没有。在真实世界中部署大量机器人贵得离谱，就算能做到，也不知道该让它们去干什么。要想收集有价值的数据，机器人就得执行有意义的、多样化的行为。目前主要靠遥操作（teleoperation）来实现。自动驾驶走这条路效果不错——人类本来就在开车——但换到有灵巧双手的人形机器人身上，这种方式的扩展性就差远了。

长期目标是让机器人像幼儿一样，靠内在动机（intrinsic motivation）驱动自主探索和采集数据。"内在奖励"这个概念在 RL 社区有很长的历史，但现有算法的样本效率太低，根本没法部署到真实机器人上。更不用说，在物理世界中放飞大量策略近乎随机的智能体——它们可能伤到自己，也可能伤到别人——这件事本身就不可行。

这就是具身智能今天面对的核心问题：在拿不到大规模行动数据的前提下，怎么推进感知-行动循环的闭合？

世界模型就是在这个背景下登场的。乍一看，它们似乎只是又一个中间任务——一个学出来的模拟器，本身并不能解决核心问题。单独来看，确实如此。

但它们提供了两个值得关注的切入点。

其一，视频（以及可能的音频）生成式建模提供了一个天然可扩展的预训练目标。关键在于，视频不只是原始感官数据的记录——它还隐含了大量关于物理规律、世界运作方式的信息，以及人类关于技能、任务和任务结构的知识。用有限的神经网络去逼近这个复杂过程，有可能学到有用的表征，进而作为策略微调的起点。不过这目前还只是推测：据我所知，尚未有明确的证据表明视频模型能轻松微调成可用的策略，虽然已有一些初步的苗头。

其二，如果把视频模型扩展成以动作为条件的模型，它们就可以充当训练智能体的模拟器。原理上，这实现了一种数据杠杆：用少量昂贵的真实世界交互来启动一个模型，再在虚拟环境中产生丰富得多的训练经验。但这条路有一个根本性的先有鸡还是先有蛋的问题——训练交互式世界模型本身就需要配对的行动-观察数据，而这恰恰是我们缺的东西。唯一的例外还是自动驾驶，那里数据管够。所以不意外的是，现有的系统只展现出有限的交互能力，而且常常让人想起电子游戏——这大概跟它们训练数据的构成有关。

因此，我并不认为视频生成模型能够解决具身智能。它们甚至未必是最终方案的必要组件。更准确地说，它们是为感知-行动学习寻找可扩展预训练目标的几次早期尝试之一。至于"正确的"预训练任务到底是什么，目前没有答案。闭合感知-行动循环所需的其他要素同样悬而未决：内在动机、探索策略、长时记忆、持续学习、大模型的实时推理控制……都是 open problems。

但话说回来，情况已经不一样了：我相信，正面硬刚这些问题，现在终于是可行的了。 这就是本文真正想说的事情——放下计算机视觉和机器人学习之间的传统隔阂，去认真思考一个问题：当我们想造出既能看又能做的机器时，会碰到什么。

阅读笔记

核心论点

Sitzmann 的论证可以浓缩为一个类比链：

苦涩教训之于算法：手工特征 → 神经网络学到的特征（已发生）
苦涩教训之于表征：手工 3D 表征 → 端到端学到的内部结构（正在发生）
苦涩教训之于任务定义：分类/分割/重建等子任务 → 感知-行动循环（即将发生）

这三层递进构成了他对计算机视觉"消亡"的完整预测。

几个值得记住的观点

"3D 重建只是一个聪明的预处理步骤"——这个说法颇为挑衅。Sitzmann 的论证逻辑是：如果最终目标是从图像到动作，那么中间的 3D 表征就是一个可以被绕过的瓶颈。他用自己实验室的工作（History-Guided Video Diffusion）作为证据，指出纯生成式方法在新视角合成上已经超越了 3D 结构化方法。

"相机位姿不过是最基本的动作"——这个视角转换很有趣。把 COLMAP 等传统 SfM 流程重新框架为"自我运动推断"，然后指出这只是通用智能体需要解决的控制问题的一个微不足道的子集。

"要获得擅长 3D 编辑的模型，不要训练它们做 3D 编辑"——这个反直觉的标题背后是一个关于先通用后专用的训练范式论点：先在原始数据上训练通用模型，再微调到人类工具链。

值得思考的问题

时间尺度问题：Sitzmann 说的这些趋势在多长时间内会实现？他承认世界模型目前存在鸡生蛋问题（需要行动数据来训练，但收集行动数据又需要能行动的智能体），但对于何时能突破没有给出时间线。
3D 表征真的会消亡吗？ 他自己也承认在人机界面层面 3D 表征仍有价值。更深层的问题是：端到端模型的内部表征最终会不会自发涌现出类似 3D 的结构？如果会，那这场争论就不是关于 3D 是否重要，而是关于 3D 应该被显式设计还是隐式学习。
与 NLP 的类比是否成立？ Sitzmann 将视觉与 NLP 做了类比——就像句法分析成为了 LLM 时代的"假任务"，分割和重建也是视觉时代的"假任务"。但语言的输出空间（文本）远比机器人动作空间简单。感知-行动循环涉及物理安全、实时性和不可逆性，这些约束在 NLP 中不存在。
数据瓶颈的解法在哪里？ 这是全文最诚实的部分。Sitzmann 明确承认配对感知-行动数据的匮乏是核心瓶颈，并坦言视频生成模型"可能甚至不是最终解决方案的必要组件"。这种坦诚反而增加了其他论点的可信度。

寻求"解药"：GLP-1 药物与成瘾科学的新边界

2026-02-10T00:00:00+00:00

成瘾科学并不是一个陌生的领域——它本质上是在研究生物体的奖赏系统失调。Schultz 等人（1997）在猕猴实验中发现，多巴胺神经元的放电模式精确对应强化学习中的时序差分误差（Temporal Difference Error），这一发现成为 RL 理论最重要的神经科学依据之一。本文所探讨的 GLP-1 药物，通过调节这一奖赏信号的增益，实质上是在对一个"失控的优化器"进行干预——而这个视角，对于思考 reward design 和 alignment 问题的研究者而言，或许有超出医学本身的启发。

引言：一个意外的发现

2023年，一位名叫 Mary 的丹麦社工在酒吧注意到一个奇怪的现象：她那位同样嗜酒的朋友，面前的酒几乎没动过。

"我开始吃 Ozempic 减肥，"朋友解释道，"现在喝两杯以上就想吐。"

Mary 困惑了。Ozempic 不是糖尿病药吗？这和喝酒有什么关系？

第二天，她在 Facebook 上看到一则临床试验广告——研究 Semaglutide（司美格鲁肽）对酒精成瘾的影响。她报名参加了。

几周后，奇迹发生了。

"人们说 Ozempic 消除了对食物的渴望（Food Noise）。对我来说，它消除了『酒精杂音』（Alcohol Noise）。"

—— Mary

这不是孤例。Weill Cornell 医学院助理教授 Dhruv Khullar 在《纽约客》的深度报道中指出，GLP-1 类药物正在从代谢领域的"明星"悄然变成成瘾科学的"希望之光"。

一、从"噪音"到"寂静"：成瘾者的主观体验

1.1 Mary 的故事

Mary 的酗酒史始于13岁。在丹麦——这个欧洲青少年饮酒率最高的国家之一——她曾一次喝下18瓶啤酒。

她尝试过戒酒互助会（AA）、康复中心、甚至会引发呕吐的药物 Antabuse。但没有一种方法能够平息她脑海中那个永恒的审问：

"什么时候喝？在哪里喝？喝多少？"

这种强迫性的念头像背景噪音一样，始终占据着她的精神带宽。

参加 Semaglutide 临床试验后，变化是渐进的：

首先，她失去了对啤酒的兴趣
然后换成白葡萄酒
最后，彻底停止饮酒

但最令人惊讶的不是戒酒本身，而是心理空间的释放。

"因为酒精不再是问题，所有这些精力都被释放出来了。我终于有了心理空间去思考：我到底想要什么样的生活？"

在服药几个月后，Mary 做出了一个她犹豫多年的决定——离开妻子，开始独立的新生活。

1.2 Susan 的体验

另一位试验参与者 Susan 是前 ICU 护士。她在试验开始前每晚要喝一瓶葡萄酒外加一两杯玛格丽塔。

在"线索反应性测试"中——研究人员把酒放在你面前，看你有多想喝——她形容那五分钟的闻酒时间简直是"酷刑"：

"我拼命想要那杯酒。"

但试验结束时，当她再次面对那杯酒：

"我的大脑认出了它——噢，这是你以前想要的东西——但我的身体对它毫无欲望。"

1.3 共同的转变模式

在 Khullar 的报道中，这些受访者展现出惊人的共性：

用药前	用药后
脑子里全是酒/毒品，想别的都想不了	渴望还在，但不再是压倒一切的冲动
被本能拽着走，明知不该还是要	终于能退一步想："我真的想要吗？"
时刻盘算何时喝、怎么喝、喝多少	杂念消散，脑子清净了

二、神经生物学机制：GLP-1 与大脑的深层对话

2.1 GLP-1 是什么？

GLP-1（胰高血糖素样肽-1）是一种人体天然分泌的激素。传统上，我们认为它的功能是：

由肠道分泌
作用于胰腺，促进胰岛素释放
减缓胃排空
向大脑发送饱腹信号

然而，现代神经科学揭示了一个关键发现：GLP-1 受体广泛分布于中枢神经系统，尤其是与动机和奖赏相关的脑区。

2.2 "想要"vs."喜欢"：成瘾的神经学基础

理解 GLP-1 治疗成瘾的关键，在于区分大脑中两种微妙的神经通路：

	"想要"(Wanting)	"喜欢"(Liking)
背后的化学物质	多巴胺	内啡肽等
感觉像什么	"我必须得到它"的冲动	得到之后的满足感
在成瘾中扮演的角色	驱使你去找	让你觉得爽

密歇根大学神经科学家 Kent Berridge 在80年代做了一个经典实验：他给多巴胺缺乏的老鼠喂糖水。如果快感完全依赖多巴胺，这些老鼠应该不会享受糖水。

但奇怪的是，它们的愉悦反应和正常老鼠一样。

改变的是什么？它们不再愿意为糖水付出努力。

更惊人的发现来自另一个实验：Berridge 将多巴胺刺激与愉悦刺激（糖水、可卡因）和厌恶刺激（电击棒）配对。结果，老鼠对电击棒的"想要"程度和对可卡因一样强烈。

"我的天，这是成瘾的完美原型。『想要』完全脱离了『喜欢』。"

—— Kent Berridge

这解释了一个临床现象：成瘾者可能已经不再享受某种物质，但仍然强迫性地寻求它。

与强化学习的深层联系： Berridge 的框架与 RL 理论有着精确的对应关系。Schultz（1997）证明，多巴胺神经元的放电编码的正是奖赏预测误差（Reward Prediction Error, RPE）——这是时序差分学习（TD Learning）的核心量：当实际奖赏超出预期时多巴胺激增，低于预期时下降。从计算角度看，"想要"对应智能体的奖赏信号（驱动行为选择），"喜欢"对应真实效用（reward 的内在价值）。成瘾的本质是奖赏函数被劫持：药物诱导的多巴胺释放作为虚假的高幅度 reward signal，覆盖了真实奖赏，使大脑这个"优化器"的策略完全偏离了真实目标——这正是 RL alignment 研究中 reward misspecification 的生物学案例。GLP-1 的干预机制，则类似于对特定刺激进行奖赏塑形（reward shaping）：选择性压低成瘾物质触发的多巴胺增益，而不关闭整体奖赏系统。

2.3 GLP-1 如何发挥作用？

GLP-1 药物的妙处在于：

它削弱了"想要"，但没有毁掉"喜欢"。

动物实验发现，吃了 GLP-1 的小鼠：

嗑药时多巴胺飙升的幅度变小了
但平时的多巴胺水平没变——日常的小确幸还在

打个比方：GLP-1 就像把成瘾物质的"音量"调低了，但没有把整个音响系统关掉。 你还能享受生活，只是那些让你上瘾的东西不再那么"吵"了。

2.4 GLP-1 如何穿越血脑屏障？

这里存在一个谜团：随着科学家不断改进 GLP-1 药物，将短效的天然肽变成长效注射剂，这些分子变得越来越大——理论上不应该能穿过血脑屏障。

那它们是如何影响大脑的？

科学家有几种假说：

迷走神经传导：通过连接大脑与内脏的迷走神经传递信号
刺激大脑自产 GLP-1：促进大脑自身的 GLP-1 工厂增产
"后门入口"：通过血脑屏障较薄弱的区域（如 area postrema，又称"呕吐中枢"）渗透

"事实是，没人真正知道。"

—— Lorenzo Leggio，NIH 临床主任

三、"通用病理学"假说：成瘾的统一理论

3.1 跨越物质边界

传统的成瘾治疗是"专病专药"模式：

美沙酮 → 阿片类成瘾
尼古丁贴片 → 烟草成瘾
Antabuse → 酒精成瘾

但 GLP-1 药物展现出令人惊讶的广谱性：

成瘾类型	研究发现
烟草	2021年研究：服用 Exenatide 的吸烟者戒烟成功率是安慰剂组的近两倍
阿片类	电子健康记录分析：GLP-1 使用者药物过量风险降低 40%
酒精	科罗拉多大学试验：受试者日均饮酒量从7杯降至3.5杯
行为成瘾	正在评估对赌博、强迫性购物的干预潜力

3.2 Heath D. Schmidt 的颠覆性理论

宾夕法尼亚大学神经科学家 Heath D. Schmidt 提出了一个极具野心的概念：

"GLP-1 可能在告诉我们，成瘾存在某种『通用病理学』（Universal Pathology）。而 GLP-1 是修复它的一部分。"

想想看：一种激素就能同时管住酒瘾、烟瘾、毒瘾，甚至赌瘾——这说明什么？

也许所有成瘾，在大脑深处都是同一个毛病。

成瘾不是你对某样东西特别"馋"，而是你大脑里管"想要"的那套系统整个坏掉了。

对 RL 研究者而言，这个"通用病理学"假说在概念上类似于：不同的过拟合（overfitting）现象——无论是在什么任务上——都源于同一个优化机制的失控。GLP-1 的广谱性暗示，生物奖赏系统有一个可被统一干预的底层调节节点，这为思考通用 reward regulation 机制提供了有趣的生物学类比。

四、临床试验：从老鼠到人类

4.1 宾州州立大学的芬太尼研究

Sue Grigson 教授在宾州州立大学进行了精密的动物实验。她的实验室里有一套装置：老鼠可以通过反复舔空喷嘴来"赚取"芬太尼注射。

实验设计：

让老鼠对芬太尼成瘾
分为两组：一组注射 Liraglutide（GLP-1 药物），一组注射盐水
关闭芬太尼供应，观察老鼠的"寻药行为"

结果：

组别	舔舐空喷嘴的次数
盐水组	超过100次
GLP-1组	几十次后就停止

"对盐水组的老鼠来说，这毫无用处！"Grigson 说。

更有意思的是脑部扫描的发现：GLP-1 不光让"想要"的冲动变弱了，连戒断时的难受劲儿也减轻了——大脑里负责"难受"的区域（蓝斑核）活动明显下降。

换句话说：不想要了，而且不要也没那么痛苦。

4.2 科罗拉多大学的人体试验

Joseph Schacht 在科罗拉多大学安舒茨医学院主持了美国首个针对重度酒精使用的 Semaglutide 随机对照试验。

初步结果：

指标	试验前	Semaglutide 组（2个月后）
日均饮酒量	~7杯	~3.5杯
重度饮酒天数比例	~65%	~25%

关键发现：药物没有让人更倾向于完全戒酒，而是让他们喝得更少。

"对我来说，这是最有意义的结果。大多数患者不想完全戒酒。他们想像『正常人』一样喝酒。"

—— Joseph Schacht

4.3 Adrienne Pierce 的阿片类康复之旅

50岁的 Adrienne Pierce 有着太多成瘾者都有的过去：小时候在寄养家庭之间辗转，16岁被强奸后开始碰大麻、酒、可卡因，最后染上海洛因。两个儿子先后被政府带走。

在参加 Semaglutide + 美沙酮的联合试验后：

以前：戒海洛因需要6个月
现在：只用了6周

"毒品和针头就在那儿，我随时能拿到，但我压根不想碰。就好像——连想嗨的念头都没了！"

更深的变化在于：

"以前我戒不掉，是因为脑子里那些乱七八糟的念头老是冒出来。Ozempic 把那些全给带走了。"

五、代价与风险：当"调节器"调得太低

5.1 极端的副作用

药物对欲望的强力接管并非没有代价。

Mary 在试验后期遭遇了严重的食欲丧失。最糟糕的时候，她每天只摄入200卡路里。五个月内，她减掉了55磅。

有一天，她在超市货架间失声痛哭：

"满眼都是吃的，但我什么都不想碰。我知道我得吃，但身体里一点饿的感觉都没有。我觉得特别绝望。"

那是一种很原始的恐惧——连饿都不会饿了，我还是个正常人吗？

5.2 快感缺失（Anhedonia）

2024年，《纽约时报》采访了24位因 GLP-1 药物而受影响的人，其中包括一位失去性欲的女性。

在 Reddit 上，用户讨论着各种心理变化：

"我不再享受家人、自己、生活。我不想成为行尸走肉。"

记者 Johann Hari 在其著作《Magic Pill》中描述了自己服用 Ozempic 的体验：

"我对新一天不再感到兴奋。我经常情感麻木。"

丹麦科学家 Jens Juul Holst（GLP-1 的发现者之一）在2023年表达过担忧：

"这药可能把生活搞得太寡淡了，淡到你受不了，最后还是回到老路上去。"

5.3 自杀风险争议

2023年，欧洲药品管理局在收到大量 GLP-1 使用者自杀念头和自残的报告后，启动了安全审查。

结论是：现有证据无法确立因果关系。

美国 FDA 在2024年表示"无法完全排除存在小风险"，但在2025年1月要求从 GLP-1 药物标签上移除自杀警告。

数据仍然模糊不清：

有观察性研究发现 GLP-1 可能使自杀念头风险降低一半以上
也有研究发现它可能使自杀行为风险增加一倍以上

六、根本问题：药物能代替意志吗？

6.1 进化的悖论

宾州州立健康中心成瘾服务主任 Sarah Kawasaki 说了一句很有意思的话：

"追求快乐这件事，本来是帮我们这个物种活下来的。"

想想看：喜欢吃东西，所以祖先不会饿死；喜欢交配，所以人类得以繁衍。成瘾，不过是这套"追求快乐"的系统跑偏了。

但如果我们用药物把这套系统调低，会发生什么？

"人活着需要快乐。要是全社会的人都打 GLP-1，咱们会不会都变成一群没劲的人？"

6.2 "桥梁"还是"目的地"？

一个更现实的问题：GLP-1 是帮你过渡的跳板，还是得吃一辈子？

密歇根营养肥胖研究中心主任 Randy Seeley 有点悲观：

减肥的人体重降到一定程度就不再降了，然后饿的感觉又回来了
成瘾可能也一样：药效稳定之后，那股子馋劲儿可能还是会回来

就连 Grigson 的老鼠实验也发现：吃了几周药之后，有些老鼠产生了耐药性，又开始找毒品了。

"现在有些人觉得这药什么都能治。但我的看法是，这些『附带好处』是暂时的。等体重不再往下掉了，这些好处也就没了。"

—— Randy Seeley

6.3 无法被药物触及的"为什么"

Kawasaki 还说了一句更扎心的话：

"这些药管不了你『为什么』会上瘾。"

创伤、孤独、痛苦、压力、穷——这些才是成瘾的根儿。时间长了，嗑药喝酒本身变成了应对生活的方式，"为什么"早就看不见了，但它一直在那儿使劲。

GLP-1 充其量是半个解决方案。它代替不了心理治疗。

但对 Adrienne Pierce 来说，这药确实帮了大忙：

"Ozempic 不光让我不想嗑药了，连那些老是冒出来、逼我去嗑药的破念头和烂回忆，也都消停了。"

七、未来展望：等待批准与自我实验

7.1 监管的不确定性

如果像 Schacht 这样的试验继续产生积极结果，FDA 可能会正式批准 GLP-1 用于成瘾治疗。

但药物不一定需要 FDA 的"祝福"才能获得新用途。历史先例：

阿司匹林用于预防心脏病发作：使用了几十年后才获得 FDA 批准
普萘洛尔（血压药）用于焦虑：至今仍是"超适应症使用"

很快，医生将不得不自行决定如何开具 GLP-1 处方。

7.2 Susan 的"自我实验"

Susan 在 Schacht 的试验结束后，寻找继续获得 GLP-1 的途径。最终，她通过一位经营美容 spa 的执业护士获得了处方——名义上是"想减几磅体重"。

现在，她把药物放在家里，在感觉有饮酒风险时自行注射：

丈夫被诊断为晚期癌症时：注射
结婚纪念日长途旅行前：注射

"我可不想在 happy hour 的时候，别人都在喝酒，就我端着杯健怡可乐干坐着。"

作为医生，Khullar 对这种随意使用强效药物感到不安。但他无法否认结果：

GLP-1 帮助 Susan 的程度超过了任何其他方法。在最后一次通话时，她仍然保持清醒。

结语：从"道德缺陷"到"神经回路失衡"

这场围绕 GLP-1 的医学探索，正在改变我们看待成瘾的方式：

过去怎么看	现在怎么看
意志力不行，管不住自己	大脑回路出了问题
人品差、道德败坏	一种可以治的脑部疾病
咬牙硬撑、靠毅力戒	可以用药物帮大脑"重新校准"

Mary 在采访最后说的一句话，或许是对这类药物最好的定位：

"这些药能给你一个喘息的机会，让你有力气去真正改变生活。"

GLP-1 不是终点，而是一个起点——它帮你把脑子里的噪音关掉，但接下来往哪走、怎么活，还得你自己来。

成瘾科学走到今天，正站在一个微妙的路口：药能帮上忙，但药救不了命。 真正的康复，终究要在化学分子和人生故事之间，找到属于自己的那条路。

附录：核心术语对照

英文术语	中文释义	语境
GLP-1 (Glucagon-like peptide 1)	胰高血糖素样肽-1	天然激素及其合成类似物
Semaglutide	司美格鲁肽	Ozempic/Wegovy 的活性成分
Mesolimbic pathway	中脑边缘通路	大脑奖赏系统的核心
Ventral striatum	腹侧纹状体	多巴胺释放的关键区域
Food/Alcohol Noise	食物/酒精噪音	大脑中持续的强迫性渴求
First-order desire	一阶欲望	即时的、本能的渴望
Second-order desire	二阶欲望	"想要不想要"的反思性愿望
Wanting vs. Liking	"想要"vs."喜欢"	Berridge 的动机与快感分离理论
Universal Pathology	通用病理学	Schmidt 提出的成瘾统一理论假说
Anhedonia	快感缺失	对愉悦体验能力的减退
Cue-reactivity test	线索反应性测试	测量对成瘾物质渴求程度的方法

参考来源： Dhruv Khullar, "In Search of a Fix: What Ozempic Reveals About the Science of Addiction," The New Yorker, February 16 & 23, 2026.

让AI看懂世界有多深：VGGT vs CUT3R 深度估计模型实测

2026-02-08T00:00:00+00:00

先说结论

如果你赶时间，这是你需要知道的：

你的需求	选这个	原因
要精度，不赶时间	VGGT	精度最高，但每秒只能处理1帧
要实时，做AR/机器人	CUT3R-224	每秒25帧，虽然精度差点
都想要一点	CUT3R-512	中间路线，两边都凑合

这俩模型是干啥的？

想象一下你拍了一张照片，问AI："图里这些东西离镜头有多远？"

这就是深度估计——让机器"看"出照片里物体的距离。

这事有什么用？太多了：

自动驾驶的车需要知道前面的障碍物有多远
AR眼镜要把虚拟物品"放"在真实桌子上
扫地机器人要知道墙在哪里
把普通照片变成3D模型

今天对比的是两个2025年最强的模型：

VGGT（来自Meta和牛津大学）

今年CVPR最佳论文
设计理念：一张一张仔细算，算得准

CUT3R（来自UC Berkeley）

今年CVPR口头报告
设计理念：边看边算，有记忆力，能一直往下处理

测试条件

我用了一个标准数据集TUM RGB-D，里面有真实的深度数据（用深度相机拍的），可以检验模型猜得准不准。

场景：室内桌面
测试帧数：17帧
深度范围：半米到10米

比赛结果

第一场：谁更准？

我测了7个指标，VGGT赢了6个。

最关键的一个指标叫Abs Rel（绝对相对误差），通俗理解就是"平均猜错了百分之多少"：

模型	猜错多少	举例说明
VGGT	17.8%	真实3米，猜的在2.5~3.5米之间
CUT3R-512	21.5%	真实3米，猜的在2.4~3.6米之间
CUT3R-224	23.2%	真实3米，猜的在2.3~3.7米之间

另一个重要指标是RMSE（平均偏差多少厘米）：

模型	平均偏多少	什么水平
VGGT	33厘米	能分清"桌子"和"墙"
CUT3R-512	49厘米	差不多能用
CUT3R-224	51厘米	差不多能用

精度结论：VGGT完胜，领先约20%。

第二场：谁更快？

这场CUT3R反杀。

模型	每秒处理几帧(FPS)	处理一帧要多久
VGGT	1.1帧	快1秒
CUT3R-512	6.7帧	0.15秒
CUT3R-224	25帧	0.04秒

翻译成人话：

VGGT：看一秒视频要处理半分钟，别想实时了
CUT3R-224：能跟上视频播放速度，可以做实时应用
CUT3R-512：不够实时，但离线处理挺快

速度结论：CUT3R-224快得飞起，比VGGT快22倍。

为什么会有这种差异？

VGGT为什么准但慢？

VGGT的设计像一个认真的老教授——每次要看完所有照片，仔细分析每张图之间的关系，然后给出答案。

好处：考虑得全面，误差小坏处：必须等所有照片到齐才能开始算，算得慢

技术上来说，它用了一种叫"交替注意力"的机制，让AI反复在"看单张图"和"看图与图之间的关系"之间切换。算得精确，但计算量大。

CUT3R为什么快但精度差点？

CUT3R的设计像一个有记忆力的速记员——看一张记一张，不用等后面的图也能开始工作。

好处：来一张处理一张，适合视频流和实时场景坏处：没法看到"未来"的信息，精度差点

它有一个"持久状态"机制，就像一个笔记本，把之前看过的信息记下来，处理新图时可以参考。这让它能处理无限长的视频而不会内存爆炸。

CUT3R升级效果：从224到512值不值？

CUT3R有两个版本：

224版本：分辨率低，速度快
512版本：分辨率高，精度好

升级后的变化：

变化	数值
精度提升	约5%
速度下降	从25帧/秒降到7帧/秒
还比VGGT快多少	6倍

我的建议：如果不需要极致实时，升级到512版本很值。

这些精度够用吗？

让我们看看不同应用需要多高的精度：

应用场景	需要多准	VGGT够吗	CUT3R够吗
机器人抓杯子	误差<5厘米	❌	❌
室内导航	误差<50厘米	✅	勉强✅
AR家具预览	误差<30厘米	❌	❌
3D场景重建	误差<1米	✅	✅

现实是：这俩模型都适合"粗活"，精密活还得靠专业深度相机。

选型指南

你是科研人员，要做高精度实验

→ 用VGGT，虽然慢但准

你在做AR/VR应用，需要实时

→ 用CUT3R-224，够快够流畅

你要处理视频，不用实时但也别太慢

→ 用CUT3R-512，平衡之选

你想要极致精度

→ 用VGGT + 微调，花时间调参能更准

两个模型的本质区别

VGGT：一次看完，统一作答

工作流程：

收集所有照片 → 放在一起对比分析 → 输出每张图的深度

内部结构：

想象一个有四个专家的团队：

📷 相机专家：判断每张照片是从什么角度拍的
📏 深度专家：估计每个像素离镜头多远
🎯 3D专家：把2D像素转成3D空间中的点
🔍 追踪专家：找出同一个物体在不同照片里的对应位置

这四个专家共用一个"大脑"（Transformer），轮流看每张图内部的细节（帧内注意力）和图与图之间的关系（全局注意力）。

关键设计：

用了DINOv2作为"眼睛"，这是Meta训练的超强图像理解模型
内部处理分辨率约392×518（不是原图分辨率）
必须一次性拿到所有图片才能开始算

为什么分辨率这么低？

不管你输入的照片是4K还是800万像素，模型都会先把它缩放到固定大小（约400×500）再处理。原因是Transformer的计算量和像素数的平方成正比——分辨率翻倍，计算量翻4倍，显存也翻4倍。

这就像你看一张大海报时，不会逐个像素去数，而是退后几步看整体轮廓。

放大回原始分辨率靠的是DPT头（Dense Prediction Transformer），这是一种学习出来的上采样方法：

Transformer在处理时，每一层都会产生不同"抽象程度"的特征——浅层看边缘纹理，深层看物体语义

DPT把这些多层特征收集起来，像金字塔一样逐级融合

每一级融合时都用学习到的卷积核来"补细节"，不是简单的双线性插值

所以虽然中间"思考"用的是缩小版，但放大时模型会根据学到的先验知识"脑补"细节，比单纯拉伸效果好很多。

适合： 照片集重建、精度优先的离线任务

CUT3R：边看边记，持续更新

工作流程：

看第1张 → 记到"笔记本" → 看第2张 → 参考笔记+更新 → ...

内部结构：

想象一个带着笔记本的观察员：

📓 持久状态：一个324格的"记忆网格"，记录已经看过的场景信息
📚 本地记忆：256个"书签"，可以快速查找之前见过的相似画面
🗺️ 射线图编码：不光看RGB颜色，还理解"这个像素对应的光线往哪个方向射出去"

每来一张新图，观察员会：

先看看图里有什么（图像编码器）
翻翻笔记本，看看之前有没有见过类似的（交叉注意力）
估计这张图的深度（预测头）
把新信息记到笔记本里（状态更新）

关键设计：

记忆不会随着视频变长而爆炸，永远是固定大小
支持"重置"，切换到新场景时可以清空笔记本
有两个版本：224版本处理快但糙，512版本更精细

CUT3R的分辨率策略

CUT3R训练时用了10种不同的分辨率（从160×512到512×384），让模型学会处理各种长宽比的图片。

两个版本的上采样方式不同：

224版本用Linear头：简单的线性投影+双线性插值，快但粗糙，相当于"硬拉伸"

512版本用DPT头：和VGGT一样的学习式上采样，能"脑补"细节，精度更高

这也是为什么512版本精度比224高5%的重要原因之一——不光是输入分辨率高了，放大的方法也更聪明了。

适合： 视频流、机器人、AR眼镜等实时场景

架构对比一览

维度	VGGT	CUT3R
处理方式	批量处理，一次算完	流式处理，来一张算一张
有没有记忆	没有，每次从零开始	有，324个记忆格+256个书签
注意力机制	帧内↔全局交替	图像↔记忆交叉
输入编码	只看RGB	RGB + 射线方向
预测头	4个专用头各司其职	1-2个共享头
显存占用	随帧数线性增长	固定大小，不怕长视频
最大输入	200帧左右就到极限	理论上无限

一句话总结：

VGGT像考试时把所有题目看完再统一作答的学霸——答得准，但要等
CUT3R像边听课边记笔记的学生——能跟上直播，但偶尔会漏细节

未来展望

VGGT可能会：

出更小的版本，跑更快
针对视频优化

CUT3R可能会：

出网页摄像头demo
记忆机制更强，精度赶上VGGT

原始数据

如果你想自己分析，这是完整的测试数据：

VGGT

绝对相对误差: 0.178
平方相对误差: 0.072
均方根误差: 0.33米
δ<1.25准确率: 71.7%
每帧耗时: 0.88秒

CUT3R-512

绝对相对误差: 0.215
平方相对误差: 0.139
均方根误差: 0.49米
δ<1.25准确率: 69.0%
每帧耗时: 0.15秒

CUT3R-224

绝对相对误差: 0.232
平方相对误差: 0.159
均方根误差: 0.51米
δ<1.25准确率: 65.3%
每帧耗时: 0.04秒

总结

一句话：要准用VGGT，要快用CUT3R。

两个都是2025年CVPR的顶级工作，选哪个取决于你的场景：

不着急、要精确 → VGGT
要实时、能容忍误差 → CUT3R-224
两边都想要点 → CUT3R-512

最后提醒：这俩都是单目深度估计（只用普通相机），如果你的应用真的对精度要求很高，还是老老实实用深度相机吧。

AI如何学会"想象"：世界模型技术全景解读

2026-02-04T00:00:00+00:00

为什么ChatGPT不会接球？

你有没有想过一个问题：ChatGPT能写诗、能编程、能回答各种刁钻问题，但如果让它控制一个机器人去接一个飞过来的球，它会一脸懵逼。

为什么？

因为它从来没有"身体"。它只读过关于球的文字描述，但从未真正"体验"过球是怎么飞的、怎么落的、接住时手会有什么感觉。

这就是AI领域一个核心难题：语言模型懂"说"，但不懂"做"。

2025年2月，前Meta首席AI科学家Yann LeCun在巴黎的一次峰会上直言不讳地指出：现在的AI只是在玩"文字接龙"游戏，它们根本不理解物理世界是怎么运转的。

那怎么办？答案是：给AI装一个"想象力引擎"——也就是本文要聊的世界模型（World Model）。

什么是世界模型？一个类比

想象一下你在打台球。

在你出杆之前，你的大脑会自动模拟："如果我这样打，白球会怎么走，会撞到哪个球，那个球又会怎么滚……"你不需要真的打出去，就能在脑海里"看到"结果。

这个脑内模拟器，就是你的"世界模型"。

现在，AI研究者想给机器也装上这样一个模拟器。让它在采取行动之前，先在"脑子里"预演一遍，看看会发生什么。

世界模型的核心能力是回答一个问题："如果我这样做，世界会变成什么样？"

这和ChatGPT有本质区别。ChatGPT回答的是"下一个词应该是什么"，而世界模型回答的是"下一秒世界会怎样变化"。

世界模型的三次进化

从2024年到2026年，世界模型经历了三次重要的思想跃迁：

第一次进化：从"画像素"到"抓重点"

早期的世界模型试图预测未来每一个像素会变成什么颜色。这就像让你背诵一幅画的每一个像素点——累死你，而且没必要。

新一代模型（比如Meta的V-JEPA 2）学聪明了：它不预测像素，而是预测"重要的东西在哪里、会怎么动"。风吹树叶的随机晃动？忽略。球往哪个方向飞？这个要抓住。

类比： 你过马路时，不会去数对面广告牌上有多少个字，但你一定会注意到有辆车正在朝你开过来。世界模型也是这样——学会抓重点，忽略噪音。

第二次进化：从"看视频"到"在想象中练习"

以前训练AI，要让它真的去玩游戏、操控机器人，在真实环境里反复试错。问题是：真实环境很贵、很慢、有时还很危险（比如让机器人学开车，撞几次可受不了）。

Dreamer 4等新模型开创了一种"做白日梦"的训练方式：先让AI看大量视频，学会"世界大概是怎么运转的"，然后在自己想象出来的虚拟世界里疯狂练习。

类比： 就像围棋高手复盘时，不需要真的摆棋子，在脑子里就能推演几十步。Dreamer 4让AI也学会了这种"脑内训练"。

结果令人惊讶：用这种方法，Dreamer 4只需要以前百分之一的数据量，就能在Minecraft里学会挖钻石。

第三次进化：从"单一感官"到"眼耳手合一"

人类是怎么学会做事的？我们同时用眼睛看、用耳朵听、用手去试。这些感官信息在大脑里是统一的。

UniVLA等新架构试图让AI也做到这一点：把"看到的画面""听到的指令""要做的动作"全部编码成同一种语言（在技术上叫Token），然后用一个统一的模型来处理。

类比： 以前的AI是"眼睛""耳朵""手"各管各的，现在要让它们连成一个整体，像人一样协调工作。

四条技术路线：各显神通

目前，世界模型领域有四条主要的技术路线，各有各的哲学。

路线一：Transformer派——用"语言模型"的方式理解世界

代表选手：Dreamer 4、Genie 2

这派的思路很直接：既然Transformer在语言上这么成功，那就把"世界的变化"也当成一种"语言"来学。

就像ChatGPT预测"下一个词"一样，Dreamer 4预测"下一帧画面"（或者更准确地说，下一帧的"抽象表示"）。

Dreamer 4的绝活：在脑子里练习

Dreamer 4最厉害的地方是"想象力训练"。它可以：

看100万小时的YouTube视频，学会"世界大概是怎么运转的"（比如东西会掉下来、球会弹开）
然后只用100小时的实际操作数据，学会"我的动作会产生什么效果"
最后，在完全想象的世界里练习几百万次，而不需要接触真实环境

这就像一个人通过看别人打篮球的视频学会了物理规律，然后只需要亲自摸几次球，就能在脑子里"模拟训练"，变成高手。

Genie 2的绝活：一张图生成一个世界

Google DeepMind的Genie 2走的是另一条路。你给它一张图片，它能生成一个完整的、可交互的3D世界。

更酷的是，它支持"反事实推理"：同一个起点，如果你向左走，世界会变成A；如果你向右走，世界会变成B。这对训练AI应对各种意外情况特别有用。

路线二：扩散模型派——细节控的选择

代表选手：Diamond

扩散模型是Stable Diffusion、Midjourney背后的技术。它生成的图像细节极其丰富。

Diamond团队做了一个有趣的实验：在Atari游戏里，他们发现视觉细节真的很重要。

比如打砖块游戏，球飞得很快时会有一点模糊的残影。这个残影看起来不重要，但它其实包含了球的速度和方向信息。如果AI看不到这个残影，它的表现会明显变差。

Diamond用扩散模型构建了一个高保真的"梦境世界"，让AI在里面训练。结果，它在Atari游戏上创下了新纪录。

代价是什么？ 速度。扩散模型需要一步步"去噪"才能生成图像，这个过程很慢。不过研究者们正在用各种技巧加速，比如"蒸馏"——把一个复杂的模型压缩成一个快速的小模型。

路线三：JEPA派——不画画，只理解

代表选手：V-JEPA 2

这条路线的哲学完全不同。Yann LeCun（对，就是开头批评ChatGPT那位）认为：AI不需要学会"画出"世界，只需要学会"理解"世界。

什么意思？

想象一下，我问你："如果我把这个杯子推下桌子，会发生什么？"

你不需要在脑子里画出杯子掉落的每一帧画面，你只需要知道"杯子会掉下去、可能会碎"。这是一种抽象的理解，不是逼真的模拟。

V-JEPA 2就是这么干的：

它不预测"未来的图像是什么样"
它预测"未来的『特征向量』是什么样"

特征向量是什么？你可以理解为一种"压缩后的本质信息"。它不关心树叶怎么晃、光影怎么变，只关心"有个东西在那里，正在往那个方向移动"。

V-JEPA 2的绝活：零样本规划

因为V-JEPA 2理解的是"本质"而非"表象"，它可以做到一件神奇的事：在完全没见过的环境里，直接完成任务，不需要重新训练。

你给它一个目标（比如"把红色方块放到蓝色盒子里"），它会在"脑子里"模拟各种动作序列，找到最可能成功的那一条，然后执行。

这就像一个围棋高手下一盘从没见过的开局，但因为他理解围棋的"道"，所以仍然能找到好棋。

路线四：大一统派——把所有感官融为一体

代表选手：UniVLA

UniVLA的野心很大：它想把"看""听""说""做"全部统一起来。

具体怎么做？它把所有东西都变成同一种"语言"：

图像 → 切成小块，每块变成一个"词"
文字 → 本来就是词
动作 → 也编码成"词"

然后，用一个大语言模型来处理这个"混合语言"。训练目标很简单：预测下一个"词"是什么，不管它是图像块、文字还是动作。

UniVLA的绝活：跨机器人迁移

不同的机器人长得完全不一样：有的是机械臂，有的是轮式底盘，有的像人形。以前，给一个机器人训练的技能，很难直接用到另一个机器人上。

UniVLA学会了一种"任务的本质"——不是"具体怎么动"，而是"这个任务要做什么"。这样，它可以从人类操作的视频里学会"怎么叠衣服"，然后把这个知识迁移到各种不同形态的机器人上。

一个重要的批评：视频生成 ≠ 世界模型

虽然Sora、Genie 2这些视频生成模型效果惊艳，但有学者泼了冷水。

Eric Xing等人指出：能生成好看的视频，不代表真的理解物理世界。

他们举了几个例子：

视频模型经常"作弊"：为了让画面看起来流畅，它会让物体凭空消失或者融合在一起
视频模型不支持"干预"：你没法在中途改变一个动作，看看会发生什么不同的结果

他们提出了一个更严格的标准，叫PAN架构：

Physical（物理性）：模型必须真的懂物理规律，比如能量守恒、不能穿墙
Agentic（可操控性）：模型必须支持"如果我这样做会怎样"的反事实推理
Nested（嵌套性）：底层处理像素，高层处理概念，两者要能配合

换句话说，真正的世界模型不是"画得像"，而是"想得对"。

各家模型速览

模型	一句话总结	核心优势	典型应用
Dreamer 4	在想象中训练，数据效率极高	用1%的数据达到以前的效果	游戏AI、机器人
V-JEPA 2	不画画，只理解本质	零样本迁移到新环境	机器人操控
Genie 2	一张图生成一个世界	支持反事实推理	游戏开发、数据生成
Diamond	细节控的扩散模型	视觉保真度最高	精细操作任务
UniVLA	视觉+语言+动作大一统	跨机器人迁移	通用机器人

为什么这很重要？

世界模型不是一个纯学术的话题。它直接关系到AI能不能真正"走出屏幕"，进入物理世界。

自动驾驶：车需要预测"如果我不刹车，会撞上吗？""如果我变道，旁边的车会怎么反应？"这就是世界模型的能力。

机器人：要让机器人做家务，它必须能想象"如果我这样叠衣服，会不会叠歪？""如果我这样端盘子，会不会洒？"

游戏和娱乐：想象一下，一个NPC不再是按脚本行动，而是真的"理解"游戏世界，能做出合理的反应。

科学研究：物理学家已经在用类似的技术模拟分子运动、气候变化。

结语：从"说"到"做"的漫长旅程

2023年，ChatGPT让全世界见识了AI"说"的能力。

但"说"只是智能的一小部分。真正的智能，是能够在物理世界中感知、预测、行动。

世界模型，就是AI从"嘴炮高手"变成"行动派"的关键一步。

它让机器学会了一种古老而深刻的能力——想象。

在真正动手之前，先在脑子里过一遍。这是人类几百万年进化出来的生存技能，现在，AI也在学习这个技能。

也许有一天，当一个球飞向机器人的时候，它不再懵逼，而是——

伸手，接住。