计算机视觉的苦涩教训：当"看"与"做"的边界消融

原文：The Flavor of the Bitter Lesson for Computer Vision

作者：Vincent Sitzmann（MIT CSAIL 助理教授）

发表日期：2026 年 2 月 1 日

全文翻译

我认为，我们所熟知的计算机视觉即将走到尽头。

长期以来，我们把视觉当作一种从图像到中间表征的映射——分类、语义分割、三维重建。但在苦涩教训的时代，这些任务正在变得和边缘检测没什么两样：都是历史遗留的产物，本质上只是在"划定能解的中间问题"，而不是在解决智能本身。

NLP 已经迎来了属于自己的"LLM 时刻"——语言建模就是终极目标，大家心里有数。但视觉社区还在争论：属于我们的那场革命，到底长什么样？我们还在为点追踪、分割、3D 重建这些具体任务微调模型——与此同时，世界模型已经破土而出，它绕过了一切传统的中间表征，径直去解决一个远比我们过去做的所有工作都更宏大的问题。

这篇文章的核心论点是：计算机视觉的未来，在于成为端到端感知-行动循环的一部分。计算机视觉、机器人学习、控制——这些领域之间的历史边界将不复存在。前沿研究不会再区分"看"和"学会行动"。

作为一个具体的例子，我会谈到 3D 表征正在衰落：我的预测是，就像我们已经不再为检测任务手工设计特征一样，我们很快也不会再把 3D 当作具身智能的组成部分。

计算机视觉的范畴是怎么来的

要看清这个领域往哪走，不妨先问一个根本的问题：视觉到底是什么？

过去，我们把视觉当作智能系统里"视觉感知"这个子模块——常常概括为"知道什么东西在什么地方"。但仔细想想，这并不是一个定义清楚的任务。输入是图像或视频，没问题——但输出是什么？它没有给出一个可以严格证伪的输入-输出规范，因此也就谈不上被彻底"解决"。

在真实世界里，感知有一个清晰得多的衡量标准：能不能做出聪明的行动。如果一个智能体能把当前和过去看到的东西，转化为达成目标的动作——尤其是在从没见过的新环境中——那它就算成功地感知了世界。这个标准很好检验：我给机器人演示一下怎么收拾洗碗机，然后看它能不能做到。做到了，说明它确实看懂了该看的东西。

那我们为什么没有一开始就从这里切入？因为在过去，直接学习感知-行动循环根本行不通。科学家的工作是解决当下能解的问题，于是我们把计算机视觉单独拎了出来。整个社区收敛到一个方向：做把图像映射到各种看起来有用的中间表征的算法——分类、分割、光流、3D 重建、SLAM。

与此同时，机器人学习和控制被定义成另一件事：接收这些特定表征（点云、边界框、掩码），然后把它们映射成动作。

这种拆分在当时是必要的妥协。但我认为，这种具身智能的"模块化"思路，正在迅速失去存在的理由。

案例：3D 表征为何可能变得多余

Rich Sutton 的苦涩教训说："利用大规模算力的通用方法，最终总会胜过精心设计的、针对特定任务的系统——哪怕后者一开始看起来更巧妙。"

在计算机视觉里，大多数研究者很乐意把这个教训用在算法上，承认带物理归纳偏置的神经网络很难 scale。但奇怪的是，很少有人把同样的逻辑用在表征上。

想想 3D 表征——不管是点云、辐射场、SDF 还是体素网格。再想想具身智能的基本循环：感知进来，行动出去。既然我们已经可以端到端地训练算法来直接完成这件事，那么手工设定一个像"3D 结构"这样的显式中间表征，恰恰就是苦涩教训所警告的那种"看起来聪明的人为瓶颈"。

不信的话，做个思想实验。看看你现在坐的这间屋子。假设我给你一个完美的 3D 重建——NeRF 也好、点云也罢，随你挑——你拿它能干什么？

当然有些小众用途，比如新视角合成。但只要任务涉及到具身智能，你还是得靠另一个智能算法去消化那个 3D 表征、决定下一步怎么做。整个链路的输入-输出始终是"图像→动作"，3D 重建充其量是一个精巧的预处理步骤。放到具身智能的长远尺度上看，这种拆分是撑不住的。

实际上，许多过去被认为离不开 3D 的任务，已经被端到端学习做得更好了。拿新视角合成来说：少样本视角合成的 SOTA 已经有一段时间不用 3D 可微渲染了，取而代之的是生成式世界模型。我的学生 Boyuan 和 Kiwhan 做 History-Guided Video Diffusion 的时候，在 RealEstate10k 上生成的新视角效果远好于我做过的任何 3D 结构化方法——而且这几乎只是他们顺手做的事。

SE(3) 相机位姿也会消失

你可能会说，这些生成模型仍然要以相机位姿为输入条件，而位姿是靠传统多视角几何（COLMAP）或其学习版本算出来的。但我预测，和 3D 表征一样，输出相机位姿的算法也终将过时。我们实验室已经证明，新视角合成可以被纯粹地形式化为一个表示学习问题——完全不需要多视角几何的任何概念。不需要位姿，不需要 3D。

自我运动（ego-motion）说白了就是一个智能体能做的最基本的动作，它没什么特殊的。终有一天，我们要解决的是让 AI 控制一个它从未操纵过的身体——在那个尺度上，推断自我运动只是一个微不足道的子问题。不管我们最终走到什么样的算法，它都会顺带把自我运动处理了，不用我们专门去设计。

想让模型擅长 3D 编辑，就别拿 3D 编辑来训练它

那工程场景呢？建筑、CAD、制造？盖房子或者 3D 打印一个发动机零件，难道不需要显式的 3D 表征吗？在人机交互界面层面，我同意——用 3D 网格加 CAD 编辑器是合理的。但我的论点不在于人怎么跟机器沟通，而在于我们怎么训练出能帮我们自动化 3D 设计的模型。

在这件事上，道理是一样的：要想让模型在操纵物理和数字 3D 对象方面真正厉害，就不该训练它去输出专家设计的 3D 表征，也不该把这种表征写死在架构里。正确的做法是直接用原始数据训练通用物理智能模型，让它自己学出内部的、与任务相关的结构。这些内部表征不需要——也大概率不会——长得像人类定义的任何建模、网格化或重建概念。模型训练好之后，再微调它去对接我们人类习惯用的表征和工具链。

至于最后一步——把东西造出来——短期内我们会在 3D 打印机 API 或网格文件格式上做微调。放到更长远来看，3D 打印机和挖掘机本质上就是机器人：需要 AI 来自动化的物理机器。所以我认为，3D 制造领域的挑战最终会和更广义的具身智能问题一起被解决——把执行器的控制权直接交给 AI。

感知-行动循环与世界模型的核心挑战

具身智能的核心难题是：大规模的感知-行动配对数据根本没有。在真实世界中部署大量机器人贵得离谱，就算能做到，也不知道该让它们去干什么。要想收集有价值的数据，机器人就得执行有意义的、多样化的行为。目前主要靠遥操作（teleoperation）来实现。自动驾驶走这条路效果不错——人类本来就在开车——但换到有灵巧双手的人形机器人身上，这种方式的扩展性就差远了。

长期目标是让机器人像幼儿一样，靠内在动机（intrinsic motivation）驱动自主探索和采集数据。"内在奖励"这个概念在 RL 社区有很长的历史，但现有算法的样本效率太低，根本没法部署到真实机器人上。更不用说，在物理世界中放飞大量策略近乎随机的智能体——它们可能伤到自己，也可能伤到别人——这件事本身就不可行。

这就是具身智能今天面对的核心问题：在拿不到大规模行动数据的前提下，怎么推进感知-行动循环的闭合？

世界模型就是在这个背景下登场的。乍一看，它们似乎只是又一个中间任务——一个学出来的模拟器，本身并不能解决核心问题。单独来看，确实如此。

但它们提供了两个值得关注的切入点。

其一，视频（以及可能的音频）生成式建模提供了一个天然可扩展的预训练目标。关键在于，视频不只是原始感官数据的记录——它还隐含了大量关于物理规律、世界运作方式的信息，以及人类关于技能、任务和任务结构的知识。用有限的神经网络去逼近这个复杂过程，有可能学到有用的表征，进而作为策略微调的起点。不过这目前还只是推测：据我所知，尚未有明确的证据表明视频模型能轻松微调成可用的策略，虽然已有一些初步的苗头。

其二，如果把视频模型扩展成以动作为条件的模型，它们就可以充当训练智能体的模拟器。原理上，这实现了一种数据杠杆：用少量昂贵的真实世界交互来启动一个模型，再在虚拟环境中产生丰富得多的训练经验。但这条路有一个根本性的先有鸡还是先有蛋的问题——训练交互式世界模型本身就需要配对的行动-观察数据，而这恰恰是我们缺的东西。唯一的例外还是自动驾驶，那里数据管够。所以不意外的是，现有的系统只展现出有限的交互能力，而且常常让人想起电子游戏——这大概跟它们训练数据的构成有关。

因此，我并不认为视频生成模型能够解决具身智能。它们甚至未必是最终方案的必要组件。更准确地说，它们是为感知-行动学习寻找可扩展预训练目标的几次早期尝试之一。至于"正确的"预训练任务到底是什么，目前没有答案。闭合感知-行动循环所需的其他要素同样悬而未决：内在动机、探索策略、长时记忆、持续学习、大模型的实时推理控制……都是 open problems。

但话说回来，情况已经不一样了：我相信，正面硬刚这些问题，现在终于是可行的了。 这就是本文真正想说的事情——放下计算机视觉和机器人学习之间的传统隔阂，去认真思考一个问题：当我们想造出既能看又能做的机器时，会碰到什么。

阅读笔记

核心论点

Sitzmann 的论证可以浓缩为一个类比链：

苦涩教训之于算法：手工特征 → 神经网络学到的特征（已发生）
苦涩教训之于表征：手工 3D 表征 → 端到端学到的内部结构（正在发生）
苦涩教训之于任务定义：分类/分割/重建等子任务 → 感知-行动循环（即将发生）

这三层递进构成了他对计算机视觉"消亡"的完整预测。

几个值得记住的观点

"3D 重建只是一个聪明的预处理步骤"——这个说法颇为挑衅。Sitzmann 的论证逻辑是：如果最终目标是从图像到动作，那么中间的 3D 表征就是一个可以被绕过的瓶颈。他用自己实验室的工作（History-Guided Video Diffusion）作为证据，指出纯生成式方法在新视角合成上已经超越了 3D 结构化方法。

"相机位姿不过是最基本的动作"——这个视角转换很有趣。把 COLMAP 等传统 SfM 流程重新框架为"自我运动推断"，然后指出这只是通用智能体需要解决的控制问题的一个微不足道的子集。

"要获得擅长 3D 编辑的模型，不要训练它们做 3D 编辑"——这个反直觉的标题背后是一个关于先通用后专用的训练范式论点：先在原始数据上训练通用模型，再微调到人类工具链。

值得思考的问题

时间尺度问题：Sitzmann 说的这些趋势在多长时间内会实现？他承认世界模型目前存在鸡生蛋问题（需要行动数据来训练，但收集行动数据又需要能行动的智能体），但对于何时能突破没有给出时间线。
3D 表征真的会消亡吗？ 他自己也承认在人机界面层面 3D 表征仍有价值。更深层的问题是：端到端模型的内部表征最终会不会自发涌现出类似 3D 的结构？如果会，那这场争论就不是关于 3D 是否重要，而是关于 3D 应该被显式设计还是隐式学习。
与 NLP 的类比是否成立？ Sitzmann 将视觉与 NLP 做了类比——就像句法分析成为了 LLM 时代的"假任务"，分割和重建也是视觉时代的"假任务"。但语言的输出空间（文本）远比机器人动作空间简单。感知-行动循环涉及物理安全、实时性和不可逆性，这些约束在 NLP 中不存在。
数据瓶颈的解法在哪里？ 这是全文最诚实的部分。Sitzmann 明确承认配对感知-行动数据的匮乏是核心瓶颈，并坦言视频生成模型"可能甚至不是最终解决方案的必要组件"。这种坦诚反而增加了其他论点的可信度。