目录

机器人产业的下一个十年:从Jim Fan的Great Parallel看六张商业明牌

机器人圈过去三年最大的迷茫,是不知道自己的"GPT时刻"长什么样。Jim Fan在Sequoia AI Ascent 2026给的答案非常直接:别想了,抄LLM的作业。

LLM从GPT-3到o1只用了六年,分三个阶跃:

LLM 机器人
Next-token prediction(GPT-3) 视频世界模型预测下一帧
SFT(InstructGPT) Action fine-tuning
RL(o1) Physical RL,最后一公里
Coding environment 神经物理引擎
Kaplan scaling law Dexterity scaling law

这套对齐他叫 The Great Parallel。这不是一句口号,每一行映射背后都有一个具体的technical bet,每一个bet都对应一类商业机会。

The Great Parallel:LLM三步函数到机器人的完整映射 Jim Fan的"The Great Parallel"原图。上排是LLM三步函数,下排是机器人的同构版本:World Modeling(simulating) → Action Fine-Tuning(aligning) → Physical RL(surpassing)。


Insight 1:VLA是错的范式,问题在"参数分布"

过去三年的主流是 VLA(Vision-Language-Action)π₀GR00T N1OpenVLART-2 都属于这一流派:拿预训练好的VLM,焊一个action head上去。

VLA架构:VLM主体 + Action Head焊接,主流玩家包括GR00T N1.7、π_0.7、RT-2、OpenVLA VLA的标准架构:把一个VLM主体加上Action Head + Detokenize/Denoise出马达动作。语言token塞了一堆,动作只占尾巴一小撮。

这套方法的隐含假设是:语义理解可以迁移到物理控制。

这个假设其实站不住脚。VLA的参数分布是语言 » 视觉 » 动作,绝大部分容量在编码"名词"(cat、cup、Taylor Swift),物理动力学得到的容量微乎其微。结果就是模型能认出"把可乐罐移到Taylor Swift照片上"里的所有名词,但执行"把鸡蛋滚到边缘但不掉下去"这种纯物理任务就抓瞎。

认了一个名词 ≠ 学会了物理。 语言领域的scaling帮不上物理动词。

真正的"机器人基础模型"不会从VLM增量演化出来,它需要一个重新设计的、视觉和动作都是头等公民的架构。这就是 WAM(World Action Model)

商业含义:今天估值最高的几家做"VLA-style robot foundation model"的公司,技术路径需要重估。在VLA上堆data不会通向AGI,只会得到一个更会描述物理的语言模型。


Insight 2:视频生成slop里藏着第二个预训练范式

视频生成模型(VeoSora)现在被当作消费玩具:猫弹班卓琴、狗狗哲学、AI广告。但有一个事实被严重低估:

这些模型在预测下一帧的过程中,自发学会了物理。

Veo 3的生成里,重力、浮力、光影、反射、折射全部涌现,没人写过一行物理代码。甚至visual planning也涌现了,它解迷宫的方式是直接在像素空间跑前向模拟(详见 Wiedemer et al., 2025 "Video models are zero-shot learners and reasoners")。

Veo 3从像素预测中涌现出的物理直觉:第二预训练范式就是"AI video slop" Jim Fan:第二预训练范式就是AI video slop。猫的奥运跳水、猫弹班卓琴——看起来像消费玩具,本质是模型在像素空间里学物理。

这件事的逻辑结构和GPT-3完全一致:压缩即智能。在文本上next-token prediction涌现出推理;在像素上next-frame prediction涌现出物理直觉。

Veo 3直接在像素空间跑前向模拟解迷宫 Visual planning也涌现了:Veo 3靠直接在像素空间跑前向模拟来解迷宫。"如果你不看,几何就是可选的"——这就是著名的physics flop现象。

不完美的地方反而最有信息量。Veo会"省略不被观察的几何":你不看的时候,物体的背面是不存在的。这不是bug,是模型在用最小描述长度逼近世界,人类大脑其实也这么干。

商业含义

  1. 视频生成不只是娱乐。任何拥有大规模视频生成模型的公司(OpenAI、Google、Runway、快手、字节),手上的资产同时也是机器人预训练的基底。这条交叉性是被严重低估的。
  2. "动作token化"是下一波技术差。运动控制信号是高维连续信号,结构上和像素接近,可以被联合渲染。能把action seamlessly塞进生成模型token流的团队,就掌握了WAM的核心架构。NVIDIA叫它Dream Zero。

Insight 3:Teleop已死,sensorized human data上位

机器人圈过去三年最大的钱坑是teleop。VR头显、低延迟串流、复杂rig,投入巨大。但有一个硬天花板

\[\text{Teleop 数据量} \leq 24 \text{ 小时} \times \text{机器人数量} \times \text{天数}\]

实际更惨,现实数字是3小时/机器人/天,剩下时间机器人在闹脾气。靠teleop堆出foundation model级别的数据量,物理上不可能。

破解路径是把人类身体本身变成数据采集器,分三代演化:

UMI/DexUMI演示:把机器人末端执行器戴在人手上直接采集数据 UMI / DexUMI的核心idea:把机器人的末端执行器戴在人手上,让人类身体直接变成数据采集器,机器人本体踢出循环。

  1. UMI(夹爪戴在手上)(Chi et al., RSS 2024):把机器人末端执行器从机器人本体上剥离,人手直接采数据。已孵化两家独角兽。
  2. DexUMI(五指外骨骼):扩展到22自由度灵巧手。比同一个PhD做teleop更快、更准、更便宜。
  3. EgoScale(纯第一视角视频):99.9%训练数据来自野外egocentric video(Project Aria 这类数据源),零机器人数据预训练 + 4小时teleop微调(< 0.1%训练量)。

EgoScale最关键的不是"用人类视频训机器人"(很多人在做)。关键是它发现了dexterity scaling law:预训练小时数和validation loss之间,干净的log-linear关系。距离Kaplan那篇LLM scaling law论文整整六年。

这才是机器人版的"信仰拐点"。一旦scaling law被独立复现,整个领域会进入军备竞赛:

  • 谁掌握第一视角视频源(Aria、Vision Pro、智能戒指、所有wearable),谁就是机器人界的Common Crawl
  • 数据采集硬件(UMI/DexUMI类)会出现"五年内十家独角兽"
  • Teleop被边缘化,它仍有微调价值,但不再是核心产能

第一视角视频源是这条机会链上唯一一个已经能用美股下注的环节(数据采集硬件都还在私募阶段)。四个最直接的卡位玩家:

特别注意类比的精度:Jim Fan把它对标FSD,Tesla车主开车时完全无意识地贡献数据。能让数据采集"消失在背景里"的硬件形态才会赢。今天的UMI还是侵入式的,它是过渡形态,不是终态。

数据策略全景图:横轴是硬件对齐度,纵轴是可扩展性。Teleop在右下角10³小时,egocentric video在左上角10⁷小时 Jim Fan的数据策略全景图。横轴是与硬件的对齐度,纵轴是scalability(log坐标):Teleop = 10³ hr,Data Wearables = 10⁵ hr,Egocentric Videos = 10⁷ hr。差出四个数量级。


Insight 4:算力 = 环境 = 数据

LLM RL的瓶颈是coding environment,OpenAI、Anthropic花上亿美金买环境。机器人RL的瓶颈更狠:100万个真机环境物理上不可能。

中间方案是Real-to-Sim-to-Real(iPhone扫一下 → 3D重建 → 经典物理仿真器 + digital cousin增强)。但它仍然依赖手写图形引擎,scale不上去。

更激进的是 DreamDojo:直接把视频世界模型当物理引擎。输入连续动作,输出实时RGB + 传感器状态,零物理方程、零图形引擎

Compute = Environment = Data:机器人版的供给侧等式 Jim Fan给出的供给侧新等式:在DreamDojo范式下,算力直接转化为环境,环境直接转化为数据。整个数据/环境侧被算力化了。

这是一个供给侧的范式转移:

\[\text{compute} = \text{environment} = \text{data}\]

在LLM时代,环境是人写的代码题;在机器人时代,环境本身就是一个神经网络。算力直接生产环境,环境直接生产数据。整个数据/环境的供给侧被算力化了。

商业含义

  • 这会催生 "EmbodiSim as a Service",按GPU小时计费的神经仿真器云服务。机器人版AWS。
  • NVIDIA在这一层是天然赢家(既卖卡又写仿真器),但应用层会有独立机会。
  • 有一个关键风险容易被忽略:reward hacking via hallucination。视频世界模型会"省略不被观察的几何",RL策略会发现"只要不看物体就能穿墙",这种漏洞在真机上是致命的。谁先解决神经仿真器的物理一致性验证问题,谁就掌握了护城河。

Insight 5:可证伪 vs 不可证伪,这套框架的真正价值

Jim Fan的路线图最值得敬佩的不是它的雄心,而是它可证伪

  • LLM next-token prediction ↔ 视频世界模型
  • LLM SFT ↔ action fine-tuning
  • LLM RL ↔ DreamDojo
  • LLM coding env ↔ 神经物理引擎
  • LLM scaling law ↔ dexterity scaling law

两年后这五条里只要有一条断了,整个框架就要修正。这比"AI将改变一切"那种宏大叙事扎实得多。

最容易断的是哪一条?我的判断是第四条,DreamDojo级别的神经仿真器还有reward hacking问题没解决。最不容易断的是第三条,sensorized human data已经在多个独立团队复现了趋势。


未来十年的商业机会图

把以上insights翻译成机会地图。

Jim Fan的Civilization Technology Tree:物理图灵测试 → 物理API → 物理AutoResearch Jim Fan用《文明》游戏的科技树类比机器人路线图:Physical Turing Test(2-3年)→ Physical API(光速工厂 + 自动化湿实验室)→ Physical AutoResearch。下面六张商业牌就是在这三个里程碑的不同时间窗口上下注。

牌一:垂直全栈(短期最大价值池)

通用机器人大脑还没烤熟。短期最大价值会被垂直全栈玩家吃掉:专用硬件 + 领域数据 + 微调模型,端到端打包。仓库、手术、配送、工业检测,每个都是几十亿美元赛道。

硬件成本曲线在崩。建筑机器人三年内从10万美元跌到1.5万美元。便宜硬件 × 高效AI软件 = 商品化红利

经验法则:别等通用大脑,做你那一行的99.9%可靠的"小脑"。99.9%不是营销数字,是部署可靠性的真实门槛。95%和99.9%之间的距离,比你想的远十倍。

牌二:WAM大脑层(长期最大蛋糕)

VLA如果真的被WAM取代,"通用机器人大脑"这个万亿级位置现在是空的。卡位需要两个能力:

  • Dream Zero式零样本泛化,没学过解鞋带也能凭物理直觉做出来
  • 显式3D/4D空间重构(业内已经有X-WAM的口号),视频模型再强,几何精度落地还是要解

谁先把WAM做到foundation model级别可靠性,谁就是机器人界的OpenAI。但要警惕:这一层的赢家结构很可能是寡头,和LLM一样,全球容得下2-3家。

牌三:数据基础设施(最被低估)

整个路线图最被低估的商业机会,藏在"24小时诅咒"那张slide后面:

  • Sensorized wearables:UMI/DexUMI孵化了2家独角兽,五年内出10家。任何把人手变成"数据采集口"的硬件都值钱。
  • 第一视角视频流的所有权:Aria、Vision Pro、智能戒指,它们最终都是机器人训练数据源。两年内人类第一视角视频成为机器人训练主食。谁拥有这些数据流,谁就是机器人界的Common Crawl。
  • EmbodiSim / 模拟即服务:神经仿真器云服务,按GPU小时付费。机器人版AWS。NVIDIA有先发优势但不一定通吃。

牌四:里程碑红利

每解锁一个achievement对应一波产业海啸:

  • 物理图灵测试(2-3年):服务业 + 工业机器人大规模铺开。先受益者是已经在垂直场景跑通的玩家(见牌一)。
  • 物理API(2030-2035):黑灯工厂(Lights-out Factories)成为现实。最值钱的是"工厂编排层",机器人界的Kubernetes。
  • 自动化湿实验室:制药/新材料R&D周期压缩一个数量级。最值钱的是垂直科学发现平台(结合proprietary生物/化学数据 + 机器人执行 + AI规划)。

牌五:高估值赛道(钱已经在跑了)

  • 国防机器人:估值倍数最离谱、采购周期最短。预测:第一个500亿美元级IPO会从这条线出来。
  • 人形机器人替代劳动力:全球年人工工资市场30-40万亿美元。哪怕吃掉百分之几,潜在价值在10万亿量级。Figure的Helix类系统已经在demo连续7-10小时工作。
  • 关键零部件供应链:高扭矩执行器、紧凑型电机、力矩传感器、谐波减速器。人形需求一起量,整条供应链重排序。中国制造业在这一层的卡位窗口期是2026-2029,过了就锁定。

牌六:可解释性与验证(5年后的必需基础层)

世界模型是黑盒。"不看的时候几何是可选的"在生成视频里是搞笑,在工厂里是事故。任何在物理世界跑的AI都需要在统计意义上证明自己安全。

机器人版的Anthropic interpretability团队会成为下一个基础设施层。5年内这个赛道一定会出独立独角兽。容易被忽略,因为它不性感,但它是bet产业能否真正大规模部署的门票。


几个"反共识"判断

最后留几个我和主流叙事不太一样的判断:

  1. 人形机器人不是答案,至少不是早期答案。 第一波规模化部署一定来自专用形态:轮式底盘 + 双臂、固定工位 + 灵巧手。人形漂亮但工程负担太重,需要等到Physical API那一关。
  2. 机器人大模型最终会出现在中国。 不是因为算法,而是因为数据、硬件供应链、应用场景三者都在这儿。WAM层全球可能2-3家,其中至少1家来自中国。
  3. 2040太晚了。 Jim Fan的95%置信区间是"科技树终点"。物理图灵测试2028就会过,物理API在2032之前必然落地。差距来自指数尾部的厚度。
  4. 最大的赢家可能根本不是机器人公司。 而是把机器人当成"分布式末端"的应用层。比如自动化湿实验室公司本质是AI制药公司,不是机器人公司。和"iPhone时代最大赢家不是手机厂"是同构的。

"Our generation was born too late to explore the earth and too early to explore the stars.

But we are born just in time to solve robotics."


Talk地址:Jim Fan @ Sequoia AI Ascent 2026