目录

当AI开始做科研:Karpathy的autoresearch与researcher的未来

你在睡觉,AI agent替你跑了一百个实验——然后呢?

一段讣告,写在README里

Karpathy在autoresearch项目的README里放了一段"虚构的序章",我第一次读到时愣了几秒:

"One day, frontier AI research used to be done by meat computers in between eating, sleeping, having other fun, and synchronizing once in a while using sound wave interconnect in the ritual of 'group meeting'. That era is long gone. Research is now entirely the domain of autonomous swarms of AI agents running across compute cluster megastructures in the skies."

"肉质计算机"(meat computers)。在进食、睡眠、娱乐之间的间隙做研究,偶尔用声波互联——也就是开组会——来同步进展。

这是Karpathy在给今天的科研方式写一段未来视角的回忆。

语气轻巧,但刀子很锋利。


autoresearch是什么

2026年3月,Karpathy开源了autoresearch。项目本体只有630行Python,但它做的事情足够清晰:把一个AI agent扔进一个真实的LLM训练环境,让它自主做实验,整夜不停地跑。

具体机制很优雅:

  • prepare.py:数据准备,固定不动
  • train.py:GPT模型、优化器、训练循环——agent唯一可以修改的文件
  • program.md:用Markdown写的研究方向说明,由人类来维护

Agent每一轮的工作流程是这样的:读取当前代码 → 提出一个改进假设(比如调整学习率、修改架构深度、换一个归一化方式)→ 修改train.py → 训练5分钟 → 用validation bits-per-byte评估效果 → 决定保留还是回滚 → 进入下一轮。

每小时约12个实验,一夜约100个。

你早上醒来,打开日志,看看agent发现了什么。


它已经在产生结果

这不是纯粹的概念验证。在nanochat这个小型LLM训练任务上,autoresearch已经找到了让训练速度提升11%的方案。Shopify CEO Tobi Lutke把这个框架用到内部项目上,agent通过迭代一个小型模型架构,验证集分数提升了19%——这个agent优化过的小模型,最终甚至超越了用传统方法配置的更大模型。

项目上线几天,GitHub star数过了8000。


为什么这件事比看起来更重要

autoresearch当然有它的局限。630行,单GPU,只能跑5分钟的小实验。它不能替代需要大规模算力、长周期验证、多模态数据的前沿研究。

但它代表的范式值得认真对待。

这里有必要先聊一下AutoML——因为"自动化机器学习"这件事并不新鲜。过去十年,AutoML做的是把超参数搜索(HPO)和神经架构搜索(NAS)自动化:给定一个搜索空间,用贝叶斯优化或进化算法在里面找最优解。Google的AutoML、微软的NNI、H2O都走过这条路。

但AutoML有一个根本性的限制:搜索空间必须由人预先定义。你告诉它"学习率在1e-4到1e-2之间搜",它就在这个范围里转。你告诉它"在ResNet和EfficientNet之间选",它就在这两个架构里比较。它优化的是人类已经想到的选项。

autoresearch做的是另一件事。agent读取train.py,理解整个训练流程,然后自己生成代码修改——它可以换优化器、重写归一化层、调整注意力机制、引入新的正则化策略。搜索空间不是预先定义的,它是agent在理解代码之后即兴发明的。

这是从"在格子里找答案"到"自己发明新格子"的跃迁。

传统的ML研究工作流大概是这样的:

  1. 读论文,形成直觉
  2. 提出假设
  3. 写代码实现
  4. 跑实验(可能要等几天)
  5. 分析结果
  6. 循环

AutoML自动化了步骤4的一部分(跑实验、比较结果)。而autoresearch把步骤2、3、4、5全部外包给agent,让人类只负责步骤1,也就是"提出正确的问题"

有篇文章的标题说得很准确:The Researcher's New Job Is Writing the Spec(研究者的新工作是写规格说明)。


插曲:vibe coding到vibe research

过去一年,"vibe coding"这个词进入了软件圈的日常词汇——用Claude Code或Cursor随手描述一个想法,让AI帮你生成、调试、迭代代码,自己不一定要看懂每一行。

autoresearch让我意识到,同样的事情正在发生在研究领域,可以叫它"vibe research"。

你不需要亲手跑每一个消融实验。你需要的是:对问题有足够清晰的直觉,知道应该往哪个方向探索,然后把这个方向写成program.md,让agent去执行。

工具在变,但有一件事没变:能提出好问题的人,依然是稀缺资源。

只是现在,提出一个好问题的杠杆效应,被放大了几十倍。


研究者的存在意义,重新审视

那么,在autoresearch这类工具存在的世界里,researcher的价值在哪里?

我觉得有几件事是agent目前做不到的,也许相当长时间内都做不到:

1. 定义"有意义"的问题

autoresearch的agent非常擅长在给定的搜索空间里寻找局部最优。但"搜索空间应该怎么定义"、"这个指标真的是我们想优化的吗"——这些问题需要对更大图景的理解。一个agent可以把val_bpb降低11%,但它不知道这个模型最终是否被部署在了一个有意义的地方。

2. 跨领域的类比直觉

很多重要的科学突破来自于:"这个问题和那个完全不同领域的问题长得很像"。这种跨域类比依赖于人类积累的、凌乱的、碎片化的知识背景。它很难被写进program.md

3. 承担认识论风险

提出一个反主流的假设,是需要承担声誉风险的。Agent没有声誉,所以它也没有理由去探索"这个想法可能让我在社区里显得很蠢"的方向。而这些方向,有时候恰恰是真正的突破口。

4. 与物理世界和人的交互

科学不只是优化一个指标。它涉及实验设计、数据收集、与同行的争论、向决策者的解释、对伦理边界的判断。这些都是深度嵌入在社会关系里的工作。


社会分工将如何变化

历史上每一次工具革命,都会重塑劳动分工。

印刷机让"抄写员"这个职业消失,但让"编辑"、"作者"、"出版商"等新角色涌现。电脑消灭了大量"计算员"(computer最初是一种职业),但催生了软件工程师。

我的猜测是,AI在科研领域的渗透,会产生几种结构性变化:

从"宽度"到"深度"的分工

以前,一个researcher需要既会提假设,又会写代码,又会分析数据,还得会写论文、做报告。这些技能的"宽度"是必要的,因为你需要自己完成整个链路。

当执行层可以外包给AI,人类的稀缺性将越来越集中在"能提出正确问题"这一点上。分工会变得更垂直:懂某个领域够深的人,和能够与AI系统有效协作的人,会越来越值钱。两者结合在一起,更值钱。

"实验资源"的民主化

现在,做一个像样的ML实验需要大量GPU资源,这是很高的门槛。autoresearch把实验范式缩减到了单GPU、5分钟一轮。这意味着一个个人研究者、一个小课题组,现在可以在睡觉的时候让AI帮自己跑一百个实验。

这不会改变大机构的算力优势,但会让资源有限的小团队也能大量试错——以前要跑一周的一批实验,现在让AI跑一晚上就够了。

"研究"与"工程"的边界模糊化

当一个工程师可以用program.md描述一个研究想法,让autoresearch整夜跑验证,他和一个"研究员"之间的界限,其实已经没那么清晰了。

这不是说工程师会取代研究员,而是说:那条把"给idea"和"跑实验"分开的界线,正在被工具侵蚀。 未来更可能是:能够跨越这条线的人,借助AI工具,同时扮演这两个角色。

评估与质量控制成为新瓶颈

如果AI能生成大量实验结果,那么"判断哪个结果值得深入追究"就成了新的稀缺能力。实验的产出速度超越了人类审阅研究结果速度,我们需要新的方法论来处理这种"结果洪流"。


尾声:"组会"的消亡与保留

Karpathy的那段虚构序章里,他嘲笑了"group meeting"这种用声波互联同步知识的仪式。

我觉得他说对了一半。以"汇报进展、分配任务"为核心的组会,确实正在变得低效,如果AI可以整夜做你本来要花一周准备的实验,那为什么还需要每周开一次会讨论"上周跑了什么实验,结果怎样"?

但以"碰撞直觉、校准认识论"为核心的交流,不会消失。那种"我突然觉得这个方向可能错了"的感觉,和那种"你这个想法和我最近想的一件事有点像"的感觉,才是组会里最有价值的部分。我们可能不再需要每周的"结果汇报会",但我们更需要不定期的"直觉碰撞会"。

研究的核心从来不是跑实验。跑实验只是把脑子里的想法外化的方式。现在,这个外化的过程可以自动化了。但脑子里的想法和直觉,还得你自己来生产。


autoresearch项目地址:github.com/karpathy/autoresearch