为什么ChatGPT不会接球?
你有没有想过一个问题:ChatGPT能写诗、能编程、能回答各种刁钻问题,但如果让它控制一个机器人去接一个飞过来的球,它会一脸懵逼。
为什么?
因为它从来没有"身体"。它只读过关于球的文字描述,但从未真正"体验"过球是怎么飞的、怎么落的、接住时手会有什么感觉。
这就是AI领域一个核心难题:语言模型懂"说",但不懂"做"。
2025年2月,前Meta首席AI科学家Yann LeCun在巴黎的一次峰会上直言不讳地指出:现在的AI只是在玩"文字接龙"游戏,它们根本不理解物理世界是怎么运转的。
那怎么办?答案是:给AI装一个"想象力引擎"——也就是本文要聊的世界模型(World Model)。
什么是世界模型?一个类比
想象一下你在打台球。
在你出杆之前,你的大脑会自动模拟:"如果我这样打,白球会怎么走,会撞到哪个球,那个球又会怎么滚……"你不需要真的打出去,就能在脑海里"看到"结果。
这个脑内模拟器,就是你的"世界模型"。
现在,AI研究者想给机器也装上这样一个模拟器。让它在采取行动之前,先在"脑子里"预演一遍,看看会发生什么。
世界模型的核心能力是回答一个问题:"如果我这样做,世界会变成什么样?"
这和ChatGPT有本质区别。ChatGPT回答的是"下一个词应该是什么",而世界模型回答的是"下一秒世界会怎样变化"。
世界模型的三次进化
从2024年到2026年,世界模型经历了三次重要的思想跃迁:
第一次进化:从"画像素"到"抓重点"
早期的世界模型试图预测未来每一个像素会变成什么颜色。这就像让你背诵一幅画的每一个像素点——累死你,而且没必要。
新一代模型(比如Meta的V-JEPA 2)学聪明了:它不预测像素,而是预测"重要的东西在哪里、会怎么动"。风吹树叶的随机晃动?忽略。球往哪个方向飞?这个要抓住。
类比: 你过马路时,不会去数对面广告牌上有多少个字,但你一定会注意到有辆车正在朝你开过来。世界模型也是这样——学会抓重点,忽略噪音。
第二次进化:从"看视频"到"在想象中练习"
以前训练AI,要让它真的去玩游戏、操控机器人,在真实环境里反复试错。问题是:真实环境很贵、很慢、有时还很危险(比如让机器人学开车,撞几次可受不了)。
Dreamer 4等新模型开创了一种"做白日梦"的训练方式:先让AI看大量视频,学会"世界大概是怎么运转的",然后在自己想象出来的虚拟世界里疯狂练习。
类比: 就像围棋高手复盘时,不需要真的摆棋子,在脑子里就能推演几十步。Dreamer 4让AI也学会了这种"脑内训练"。
结果令人惊讶:用这种方法,Dreamer 4只需要以前百分之一的数据量,就能在Minecraft里学会挖钻石。
第三次进化:从"单一感官"到"眼耳手合一"
人类是怎么学会做事的?我们同时用眼睛看、用耳朵听、用手去试。这些感官信息在大脑里是统一的。
UniVLA等新架构试图让AI也做到这一点:把"看到的画面""听到的指令""要做的动作"全部编码成同一种语言(在技术上叫Token),然后用一个统一的模型来处理。
类比: 以前的AI是"眼睛""耳朵""手"各管各的,现在要让它们连成一个整体,像人一样协调工作。
四条技术路线:各显神通
目前,世界模型领域有四条主要的技术路线,各有各的哲学。
路线一:Transformer派——用"语言模型"的方式理解世界
代表选手:Dreamer 4、Genie 2
这派的思路很直接:既然Transformer在语言上这么成功,那就把"世界的变化"也当成一种"语言"来学。
就像ChatGPT预测"下一个词"一样,Dreamer 4预测"下一帧画面"(或者更准确地说,下一帧的"抽象表示")。
Dreamer 4的绝活:在脑子里练习
Dreamer 4最厉害的地方是"想象力训练"。它可以:
- 看100万小时的YouTube视频,学会"世界大概是怎么运转的"(比如东西会掉下来、球会弹开)
- 然后只用100小时的实际操作数据,学会"我的动作会产生什么效果"
- 最后,在完全想象的世界里练习几百万次,而不需要接触真实环境
这就像一个人通过看别人打篮球的视频学会了物理规律,然后只需要亲自摸几次球,就能在脑子里"模拟训练",变成高手。
Genie 2的绝活:一张图生成一个世界
Google DeepMind的Genie 2走的是另一条路。你给它一张图片,它能生成一个完整的、可交互的3D世界。
更酷的是,它支持"反事实推理":同一个起点,如果你向左走,世界会变成A;如果你向右走,世界会变成B。这对训练AI应对各种意外情况特别有用。
路线二:扩散模型派——细节控的选择
代表选手:Diamond
扩散模型是Stable Diffusion、Midjourney背后的技术。它生成的图像细节极其丰富。
Diamond团队做了一个有趣的实验:在Atari游戏里,他们发现视觉细节真的很重要。
比如打砖块游戏,球飞得很快时会有一点模糊的残影。这个残影看起来不重要,但它其实包含了球的速度和方向信息。如果AI看不到这个残影,它的表现会明显变差。
Diamond用扩散模型构建了一个高保真的"梦境世界",让AI在里面训练。结果,它在Atari游戏上创下了新纪录。
代价是什么? 速度。扩散模型需要一步步"去噪"才能生成图像,这个过程很慢。不过研究者们正在用各种技巧加速,比如"蒸馏"——把一个复杂的模型压缩成一个快速的小模型。
路线三:JEPA派——不画画,只理解
代表选手:V-JEPA 2
这条路线的哲学完全不同。Yann LeCun(对,就是开头批评ChatGPT那位)认为:AI不需要学会"画出"世界,只需要学会"理解"世界。
什么意思?
想象一下,我问你:"如果我把这个杯子推下桌子,会发生什么?"
你不需要在脑子里画出杯子掉落的每一帧画面,你只需要知道"杯子会掉下去、可能会碎"。这是一种抽象的理解,不是逼真的模拟。
V-JEPA 2就是这么干的:
- 它不预测"未来的图像是什么样"
- 它预测"未来的『特征向量』是什么样"
特征向量是什么?你可以理解为一种"压缩后的本质信息"。它不关心树叶怎么晃、光影怎么变,只关心"有个东西在那里,正在往那个方向移动"。
V-JEPA 2的绝活:零样本规划
因为V-JEPA 2理解的是"本质"而非"表象",它可以做到一件神奇的事:在完全没见过的环境里,直接完成任务,不需要重新训练。
你给它一个目标(比如"把红色方块放到蓝色盒子里"),它会在"脑子里"模拟各种动作序列,找到最可能成功的那一条,然后执行。
这就像一个围棋高手下一盘从没见过的开局,但因为他理解围棋的"道",所以仍然能找到好棋。
路线四:大一统派——把所有感官融为一体
代表选手:UniVLA
UniVLA的野心很大:它想把"看""听""说""做"全部统一起来。
具体怎么做?它把所有东西都变成同一种"语言":
- 图像 → 切成小块,每块变成一个"词"
- 文字 → 本来就是词
- 动作 → 也编码成"词"
然后,用一个大语言模型来处理这个"混合语言"。训练目标很简单:预测下一个"词"是什么,不管它是图像块、文字还是动作。
UniVLA的绝活:跨机器人迁移
不同的机器人长得完全不一样:有的是机械臂,有的是轮式底盘,有的像人形。以前,给一个机器人训练的技能,很难直接用到另一个机器人上。
UniVLA学会了一种"任务的本质"——不是"具体怎么动",而是"这个任务要做什么"。这样,它可以从人类操作的视频里学会"怎么叠衣服",然后把这个知识迁移到各种不同形态的机器人上。
一个重要的批评:视频生成 ≠ 世界模型
虽然Sora、Genie 2这些视频生成模型效果惊艳,但有学者泼了冷水。
Eric Xing等人指出:能生成好看的视频,不代表真的理解物理世界。
他们举了几个例子:
- 视频模型经常"作弊":为了让画面看起来流畅,它会让物体凭空消失或者融合在一起
- 视频模型不支持"干预":你没法在中途改变一个动作,看看会发生什么不同的结果
他们提出了一个更严格的标准,叫PAN架构:
- Physical(物理性):模型必须真的懂物理规律,比如能量守恒、不能穿墙
- Agentic(可操控性):模型必须支持"如果我这样做会怎样"的反事实推理
- Nested(嵌套性):底层处理像素,高层处理概念,两者要能配合
换句话说,真正的世界模型不是"画得像",而是"想得对"。
各家模型速览
| 模型 | 一句话总结 | 核心优势 | 典型应用 |
|---|---|---|---|
| Dreamer 4 | 在想象中训练,数据效率极高 | 用1%的数据达到以前的效果 | 游戏AI、机器人 |
| V-JEPA 2 | 不画画,只理解本质 | 零样本迁移到新环境 | 机器人操控 |
| Genie 2 | 一张图生成一个世界 | 支持反事实推理 | 游戏开发、数据生成 |
| Diamond | 细节控的扩散模型 | 视觉保真度最高 | 精细操作任务 |
| UniVLA | 视觉+语言+动作大一统 | 跨机器人迁移 | 通用机器人 |
为什么这很重要?
世界模型不是一个纯学术的话题。它直接关系到AI能不能真正"走出屏幕",进入物理世界。
自动驾驶:车需要预测"如果我不刹车,会撞上吗?""如果我变道,旁边的车会怎么反应?"这就是世界模型的能力。
机器人:要让机器人做家务,它必须能想象"如果我这样叠衣服,会不会叠歪?""如果我这样端盘子,会不会洒?"
游戏和娱乐:想象一下,一个NPC不再是按脚本行动,而是真的"理解"游戏世界,能做出合理的反应。
科学研究:物理学家已经在用类似的技术模拟分子运动、气候变化。
结语:从"说"到"做"的漫长旅程
2023年,ChatGPT让全世界见识了AI"说"的能力。
但"说"只是智能的一小部分。真正的智能,是能够在物理世界中感知、预测、行动。
世界模型,就是AI从"嘴炮高手"变成"行动派"的关键一步。
它让机器学会了一种古老而深刻的能力——想象。
在真正动手之前,先在脑子里过一遍。这是人类几百万年进化出来的生存技能,现在,AI也在学习这个技能。
也许有一天,当一个球飞向机器人的时候,它不再懵逼,而是——
伸手,接住。