跳转至

翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华

LaTeX 源码 · 备用 PDF · 观看视频

字段 内容
作者/整理 基于公开课程资料整理
来源 WhynotTV
日期 2026-01-17

翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华

嘉宾介绍

翁家翌(Jiayi Weng),2016年入读清华大学计算机系本科,2020年赴卡内基梅隆大学(CMU)攻读硕士,2022年加入 OpenAI。他是 OpenAI 内部 Post-Training RL Infrastructure 的核心搭建者——从 ChatGPT(GPT-3.5)、GPT-4o 到 GPT-5,OpenAI 发布的每一个大模型背后都有他的名字。

在加入 OpenAI 之前,翁家翌已经通过开源项目产生了广泛影响:他在清华开源了全部作业和课程资料以打破信息差;创建了强化学习框架天授(Tianshou),成为 RL 社区最受欢迎的轻量级框架之一;疫情期间开发了免费签证查询系统 tuixue.online,累计服务数百万次访问。

本期 WhynotTV Podcast 是一次跨越两小时的深度对话,从翁家翌的童年聊起,涵盖求学、开源、职业选择、OpenAI 内部的工作方式,以及他对 AI 未来和人生意义的哲学思考。

访谈背景

本期播客的 outline 是主持人用 GPT-5 的 Deep Research 功能准备的——而翁家翌本人正是 GPT-5 背后的核心开发者之一。主持人称之为"一个奇妙的闭环"。

本章小结

翁家翌的三个关键词是:强化学习、Post-Training、Infra。但他的故事远不止技术本身——他是一个用代码做"慈善"的人,相信开源和信息平权,并在世界 AI 风暴的中心保持着独立的思考。

成长与教育:从奥数到 OI

数学天赋与自驱学习

翁家翌从小学一年级开始学奥数,并很快展现出数学方面的天赋。他描述自己的特点:学新东西慢,但一旦理解后使用极快。他用知识树的比喻解释这一现象——别人需要从根部沿着树枝逐层推导到结论,而他会直接建立一个 shortcut(捷径),跳过中间推导直接到达答案。

学习方法论:慢学习 + 快应用

翁家翌自述需要花别人两到三倍的时间来学习新东西,读代码也比别人慢。但他的应对策略是:提前学。初二就学完高中数学,初三开始学微积分。他将这种行为称为"投资未来"——这一理念贯穿了他整个职业生涯。

这种"投资未来"的思维并非来自父母的要求,而是完全自发的。他的核心逻辑是:与其把时间浪费在当前的刷题上,不如学一些对未来有用的东西,后续收益会更多。值得注意的是,这种长期主义思维在他初中时期就已经形成。

翁家翌还分享了一个关于学习方法的细节:小时候背课文,他会在睡觉之前想尽所有方法,磕磕巴巴地把全文背出来,哪怕有很多停顿也要坚持背完。然后睡一觉,第二天醒来发现倒背如流。他把这个过程比作 System 1 和 System 2 的关系——用时髦话说,口算题是 System 1 直接过,而理解新知识需要 System 2 慢慢构建,但一旦构建完成就变成了 System 1 的反射。

编程启蒙与 OI 竞赛

翁家翌从初一开始接触编程,起因是学校的编程兴趣班。高中时因为升学压力,他开始参加信息学竞赛(OI)。他坦言作为非北京生源,不搞竞赛想进清华"难如登天"。

在 OI 的道路上,他经历了波折:

  • 高一时省选几乎不会做题
  • 凭借一道最小双元覆盖题拿下全场最高分,勉强进入福建省队
  • 国赛(NOI)时是福建省队倒数第一,拿了铜牌
  • 放弃了更保险的上海交大本一线录取,选择了清华降60分的条件录取

OI 竞赛升学路径(当时)

竞赛升学的典型路径:NOIP(提高组省赛) \(\rightarrow\) 省选 \(\rightarrow\) 清华/北大夏令营(可获降分或保送条件) \(\rightarrow\) NOI国赛。金牌可直接保送,银牌以上可获本一线录取条件,降60分则需要高考成绩配合。

翁家翌在高三期间偷偷继续钻研 OI,甚至练成了在 iPad Safari 上直接裸打代码并提交的技能——没有编译器,没有代码编辑器。他认为这段经历极大锻炼了对整个程序逻辑的完整认知能力和快速定位 bug 的反应能力。

他还热衷于常数优化——在算法时间复杂度相同的情况下,优化代码运行的常数系数和代码长度。OI 评测系统会按照测试点的运行时间排序,跑得最快的排第一;如果运行时间相同,则按代码长度排序。翁家翌会同时 optimize 这两个指标——"虽然没什么用,但是很有意思"。这种对代码极致优化的追求,为后来在 OpenAI 搭建 RL Infra 埋下了伏笔。

高考抉择:在不确定性中押注

翁家翌在 NOI 拿了铜牌后,面临一个艰难的抉择:清华夏令营给出的条件是降60分(高考成绩加60分,过线即录取),但附带一个条件——如果 NOI 能进前150名(银牌线),则直接本一线录取。他最终没有拿到银牌。

另一个选项是更保险的上海交大本一线录取。翁家翌回忆说,当时高二下半年没搞文化课,不知道高考能考多少分,有学长把60分加分全部用完了,心里很害怕。但在家人的鼓励下,他选择了风险更高但天花板更高的清华降60分。

面对不确定性的决策模式

这是翁家翌第一次面对重大的不确定性抉择。他的策略是:在害怕和不确定中,选择那个上限更高的选项。这个决策模式后来在他的职业生涯中反复出现——选 OpenAI 而非更稳妥的大厂,做开源而非发论文,都遵循同样的逻辑。

本章小结

翁家翌的成长经历揭示了两个核心特质:一是正反馈驱动的自我强化——在擅长的领域不断获得正反馈,形成内生兴趣;二是长期投资思维——宁可牺牲短期效率,也要为未来积累优势。这两个特质后来深刻影响了他在清华、CMU 和 OpenAI 的每一个选择。

清华岁月:打破信息差与评价体系

开源作业——"比捐楼更有用"

2016年入学清华后,翁家翌做的第一件"名留青史"的事情是:把自己所有的作业和收集到的上古学长资料全部在 GitHub 上开源

信息平权的理念

翁家翌认为,信息差在清华是一个很有用的生存工具,但每个人都应该平等地拥有这些信息。很多有能力的人不擅长搜集资料,如果能给他们信息平权的机会,他们在清华会活得更好。开源作业不是为了让人抄,而是让后来者不必花十几二十个小时钻牛角尖——把时间省下来做更有价值的事。

这个 GitHub repo 在清华计算机系广为流传。翁家翌半开玩笑地说:"你随便抓个计算机系的学弟问,他可能不认识捐信息楼的人,但他认识翁家翌——毕竟大家都是看我的作业活的。"他还自嘲道:"(在清华的知名度)比捐楼有用。"

这件事也引发了争议。一些学长学姐反对开源作业,认为这会让后来的学生不再独立思考。但翁家翌坚持认为这是对的——他的目标不是让人抄作业,而是让有能力但不擅长搜集资料的人不再疲于奔命,能用更多时间做更想做的事。不然的话,学生经常花十几二十个小时钻牛角尖,又不敢问助教,对学习的收益非常低。

科研启蒙:误打误撞进入强化学习

大二时,翁家翌开始科研,选择了朱军老师的实验室。当时有三个方向可选:贝叶斯方法、对抗生成网络(GAN)、强化学习(RL)。他本来想做图像相关的 GAN,但因为不知道哪个选项对应 GAN,误选了强化学习。

科研选择中的随机性

翁家翌坦言自己选择 RL 方向完全是"random"的——不知道 GAN 是第几个选项就随便选了。但他后来发现 RL 是"打游戏的东西",觉得挺有意思就一直做了下去。许多看似改变人生的决定,在当时可能只是一个随机事件。

他的第一个 RL 项目是用神经网络通关一个90年代的游戏 VizDoom,并拿了冠军。但他并不享受这个过程——环境太单一,需要疯狂 overfit,调参难度比 CV 高出十到一百倍,大部分情况下算法都不能 work。

这段经历让他得出两个关键认知:

  1. 当时 RL 研究的核心瓶颈不在算法创新,而在 heuristic 的调参
  2. 他更擅长也更喜欢做支撑研究的基础设施,而非研究本身

翁家翌描述了当时 RL 研究的痛苦:你必须用一些非常 heuristic 的方法去避免各种 corner case。改算法其实没有那么本质——对于人类来说很简单的 task(比如识别障碍物),对 AI 来说是完全不同的难度。他甚至有一种"生理上的排斥反应"——不是不擅长调参,而是不喜欢做这件事。这种清晰的自我认知,让他把重心从"如何做好研究"转向了"如何让研究更顺利"——也就是后来的 infra 之路。

三个兴趣方向与评价体系的觉醒

除了 AI,翁家翌在清华期间还对图形学网络安全感兴趣。

在图形学方面,他最初的兴趣来自初中看过的科幻电影《创战纪》(Tron),被其电影特效深深震撼——"如果有一天我能做出这种特效,或者构建自己的虚拟世界,那就圆满了"。他在图形学课上拿了全班唯二的 A+,发明了一个减少迭代收敛次数的新算法,渲染了一张当时前所未有的 16K 分辨率图像——在他之前完全没有人渲过 16K 的图。他觉得图形学是"对现实世界的 hacking",可以以自己的视角构建脑中想象的场景。

在网络安全方面,他觉得"hacker 非常酷",业余时间搞了很多相关的东西,给学校修了不少校园网的 bug。比如他和一个学长发现了一个漏洞,可以一分钱甚至不要钱下载成绩单(原本每次十块钱),下载几次后把这个 bug 反馈给了学校教务部门。

但最终他选择专注 AI 方向——"如果你要搞科研的话,那还是专心比较好,不能脚踏两条船"。

朱军老师的三指标评价体系

翁家翌的导师朱军提出了一个不同于 GPA 的评价体系:计算机系学生的价值可以用三个指标衡量——论文、比赛成绩、GitHub 三位数以上的 star。这个评价体系深刻影响了翁家翌,让他意识到可以在开源社区创造与众不同的价值。

在 GPA 问题上,翁家翌的策略是最低限度投入——计算好当前分数,确保达到自己设定的标准(比如87分的 B+),多一分都不愿意花时间。他认为 GPA 是一个三四年后就不用写在简历上的东西,不值得投入过多精力。

MILA 暑期研究:与 Yoshua Bengio 的交集

大三暑假,翁家翌通过导师联系到 Yoshua Bengio(2019年图灵奖得主),前往 MILA 做暑期研究。任务是做一个类似 MoE(Mixture of Experts)的东西——有一个 router 选择不同的 path,应用在 language model 上。

这段经历的结果并不理想:当时没有足够的算力和工程能力来 scale up,几块卡根本搞不出来。但回过头看,这次经历让翁家翌同时接触了 RL 和 NLP(Transformer),为后来在 OpenAI 做 RL for LLM 的工作奠定了双重基础。

翁家翌描述了当时的困境:他被一个做 RL 的人派去做 NLP,需要花很长时间入门 Transformer 和 NLP。搓出来的东西没有好效果——现在回过头看,这个东西要 work,需要算力和很强的工程能力来 scale up,一个人几块卡根本不行。"哪怕方向是对的,你也是搞不出来的。"这段暑研经历也没有产出论文,对申请造成了不小的影响。

先见之明的局限性

翁家翌强调"马后炮是没有用的"。虽然事后看他在 OpenAI 之前就同时具备了 RL 和 NLP 的经验,但在当时他完全预见不到未来。NLP 在他看来 task 太分散,RL + Transformer 会崩,用几块卡做 MoE 即使方向对了也做不出来。很多改变世界的认知,需要足够的 compute 和 engineering 才能被验证。

本章小结

清华四年,翁家翌完成了三个关键转变:(1)从竞赛思维转向开源和信息平权理念;(2)确立了自己的评价体系——论文、比赛、开源项目,而非 GPA;(3)意识到自己更擅长也更享受做 Infra 而非 Research。这些认知为他后来的职业道路指明了方向。

开源之路:天授与 tuixue.online

天授(Tianshou):两周手搓的 RL 框架

2020年初,翁家翌做了一个改变他职业轨迹的决定:从零开始写一个强化学习框架。

起因很简单——他写了很多 RL 实验代码,想整合一下让自己跑得更好。他先看了 Ray 下面的 RLlib,花了一个月发现太复杂了——几十万行代码,抽象太多,完全不知道该怎么改。于是他决定推倒重来,手搓一个全新的框架

天授的设计哲学:一致性(Consistency)

翁家翌认为一个好项目最重要的特性是一致性。多人协作的项目容易腐化,因为每个人都不知道对面写了什么,假设无法及时传递,导致代码复制粘贴和膨胀。天授之所以成功,是因为从头到尾由一个人设计和实现,保证了整体的一致性。

天授的第一版只花了两周就完成了。翁家翌解释:如果把抽象搞对,实现一个算法可能不到二十行代码。相比 RLlib 的几十万行,天授的关键在于精简的顶层设计——用户想改什么功能,设计上已经指定好了"只能改这个地方"。

天授做对的核心是抓住了用户需求:当时 RL 研究者需要一个好用、好改、代码短的框架,能直接拿来用,研究一下就知道该改哪里。天授恰好满足了这个需求。

天授的后续发展与腐化

天授后来成为一个开源社区维护的项目。翁家翌在入职 OpenAI 后没有时间继续维护,便将维护权转移给了社区。他设定的规则是:只要有一个拍板的人,就可以保持 consistency。

五年后回看,翁家翌承认天授"有一点"腐化了——因为他的 context 和接任者的 context 不完全一致,接任者会重写部分代码,导致整体不那么 consistent 了。但他认为这在长远来看是可以接受的。

这段经历也让他在 2022 年 8 月做出了一个重要决定:逐步停止天授的开发。原因是他进入 OpenAI 后意识到,天授针对的 Atari、MuJoCo 等 toy benchmark 与工业界真正需要的 RL(如 LLM 对齐)有巨大鸿沟。"我应该投入更多的时间到更有意义的事情里面。"

关于"不发 Paper"的选择

翁家翌明确表示做天授不是为了发论文:"我觉得发 paper 完全没有意义。"他当时已经有了论文、比赛成绩,申请也够用了。他想要的是一个真正的、三位数 star 以上的开源项目——一个按导师评价体系来说"正儿八经"的 GitHub 项目。

tuixue.online:疫情中的签证查询系统

2020年疫情期间,美国领事馆关闭,签证时间高度不确定。翁家翌自己也在等签证去 CMU,于是写了一个签证时间爬虫,开源为免费查询系统 tuixue.online。

这个项目的第一版甚至不需要什么技术——白天手动更新一次,晚上手动更新一次。但即使如此简陋,需求就已经很大了。后来自动化后,累计点击量超过百万次(后来可能达到千万次)。疫情过后领事馆升级了网站,原来的爬虫用不了,翁家翌也没时间重写,项目就完成了它的历史使命。

翁家翌对这个项目的总结是:"技术不重要,重要的就是抓住需求。"你甚至不需要高级的技术——哪怕是手动更新,只要满足了用户的痛点需求,就有巨大的价值。

开源是一种慈善

翁家翌反复用"慈善"来定义自己的开源项目。主持人注意到,天授和 tuixue.online 其实都不是功利的项目——天授做的时候申请已经结束了,tuixue 也完全免费。翁家翌承认自己有一种"很强烈的内在冲动"——想要创造一些自己觉得有用的东西,然后分享给所有人。

他分享了这种冲动的源头:高三时突然蹦出一个 idea——"如果人生是一场游戏,那么游戏的结算分数就是你死的那个瞬间记得你名字的人的数量。"这个"人生游戏论"一直驱动着他追求 impact,并且一直延续到今天。

主持人追问:"你不觉得自己也被这个标准推着走了吗?"翁家翌的回答很有意思:"目前还没有。如果发现这种情况可以改——可以改自己的评价标准。"他不是这个标准的"奴隶"——哪怕在 OpenAI 很长一段时间没有新的开源项目,他也不觉得困扰,"OpenAI model 就是最好的(开源项目)"。

代码即慈善

翁家翌将天授和 tuixue.online 都定义为慈善项目(non-profit)。他说:"做慈善项目让我感觉非常满足。相比钱,impact 更让我满足。"这种"代码即慈善"的理念,源于他高中时突然意识到的一个"人生游戏结算规则"——你死的那个瞬间,记得你名字的人越多,分数越高

本章小结

天授和 tuixue.online 共享同一个创作模式:自己有需求 → 市面上没有好用的工具 → 手搓一个 → 免费开源给所有人。这两个项目都不功利——天授不是为了发论文,tuixue 不是为了赚钱。但正是这些"非功利"的项目,为翁家翌带来了最大的 impact 和职业机会。技术不重要,抓住需求才重要。

从 CMU 到 OpenAI:职业选择

申请研究生:图灵奖推荐信也不保证 PhD

翁家翌对 PhD 的申请并不顺利。虽然有 Yoshua Bengio 的推荐信(图灵奖得主),但暑研没有产出 paper,最终只拿到了 CMU 的 Master 而非 PhD。

清华的评价氛围

在当时清华的氛围中,PhD 被认为优于 Master。翁家翌坦言自己"确实有一点失望",花了一段时间调整。但他后来认为,学历高低并不决定长期发展,真正重要的是你的经验能不能匹配需求方的要求。"如果你想进工业界,那么读 PhD 就是浪费生命。"

他在 CMU 期间在家上了一年网课(因为 COVID),但这段时间反而用来开发天授和 tuixue.online,把精力投入到更有长期价值的事情上。

翁家翌的申请经历提供了一个反直觉的案例:图灵奖得主的推荐信 + 清华计算机系本科 + OI 竞赛背景,依然可能只拿到 Master。他回忆说当时在知乎上看到很多人讨论申请结果,有人看到他"图灵奖强推"的背景却最后没有拿到 PhD,感到非常震惊——"竞争这么激烈"。

但翁家翌后来对此释然了。他认为 PhD vs Master 的高下之分是一种环境氛围制造的幻觉——"真正取决于你到底干什么"。他开始尝试挣脱这个评价体系,虽然在本科时期还没有完全挣脱出来,但已经意识到"应该创造自己的评价体系,而不是用其他人提供的评价体系"。

CMU Master:疫情中的远程求学

2020年秋季,翁家翌入学 CMU,但由于 COVID 疫情和签证问题,第一年完全在国内上网课。这段看似"浪费"的时间,他却充分利用——专注于天授的开发、tuixue.online 的维护,以及思考未来的职业方向。

他提到一个重要的心态转变:面对科伟(COVID)、国际政治动荡等宏大叙事,他选择专注于手头上的事——"不要天天去关注一些宏大的国际叙事,而是专注于手头上的事情,这样可能让自己内心更平静一些。"

疫情年的出国选择

翁家翌那届(2019年12月申请)正好赶上 COVID。当时清华只有约 5% 的人选择出国(比往年的 20% 大幅下降),面临签证关闭、国际局势不确定等多重风险。翁家翌在这种不确定性下仍然坚持出国——与高中时选择清华降60分的决策模式如出一辙。

求职:DeepSeek vs OpenAI

CMU 毕业时,翁家翌自嘲自己"开始时候吊儿郎当的",投了18家公司,最后只收到了 Google 和 autoML(陈天琦老师的公司)的 offer。他不想去 Google——"在大厂当螺丝钉,做一些自己不是那么喜欢的事,比如前后端"。后来认真起来,又拿到了更多 offer。

他面临的核心选择是几家公司:

公司 方向 结果
OpenAI RL(John Schulman 组) 接受
幻方(后来的 DeepSeek) RL Infra 拿到 offer
NVIDIA RL 拿到 offer
Google 通用 SWE 拿到 offer
FAIR(Meta) RL 因流程原因被拒
TikTok 拿到 offer
翁家翌的求职选择

选择 OpenAI 的逻辑

这是 before ChatGPT 的时代。翁家翌选择 OpenAI 的原因是:(1)OpenAI 和 DeepMind 是当时 RL 领域最好的两个 research lab;(2)他想亲身体验世界最前沿的研究是怎么做的,而不是在学校"小作坊"里几个 PhD 手搓;(3)他想学习工业界有方法论地进行研究的方式。

关于幻方(DeepSeek 前身),翁家翌透露当时幻方说要搞一个 AI Lab(即后来的 DeepSeek)。如果没有 OpenAI 的 offer,他会选择幻方。换言之,从"开天眼"的角度看,他当时面临的选择本质上是 DeepSeek vs OpenAI

John Schulman 的面试

翁家翌被 John Schulman 亲自面试和招入 OpenAI。Schulman 认可他的核心原因是GitHub 非常漂亮——一个有良好工程能力的人对任何项目都有益。最后一轮面试是一道非常 end-to-end 的开放性题目,给了三个小时,翁家翌两个小时就完成了。

值得一提的是,这道面试题只测试过两个人——翁家翌和后来做 Codex 的同事(Andrew Y.),两人都通过了("通过率百分之百")。翁家翌对 Schulman 充满感激,甚至在 Schulman 离职那天难过了一个下午,关掉电脑什么都没做。

Schulman 赏识翁家翌的核心原因值得深思:不是论文,不是学历,而是GitHub 非常漂亮。这恰好验证了朱军老师提出的"GitHub 三位数 star"评价体系——在工业界,可见的工程产出确实比学术论文更有说服力。

翁家翌对读 PhD 的看法

被问到找工作时是否考虑过读 PhD,翁家翌的回答很干脆:没有。"因为你接触了一些工业界的人会发现,如果你想进工业界那么读 PhD 就是浪费时间。你完全可以以 Master 为跳板,凑够 PhD 进工业界的标准。"他的策略是想清楚差异化——做出一些能让对方"挑选 Master 的你而不是另外一个 PhD"的项目。

本章小结

翁家翌的求职经历体现了几个原则:(1)差异化竞争——用开源项目和工程能力弥补没有 PhD 的短板;(2)面向需求优化——搞清楚 AI Lab 需要什么样的人,然后让自己匹配;(3)不被固有评价体系束缚——Master 不如 PhD?那就在其他维度证明自己。

OpenAI 核心工作:Post-Training RL Infra

初入 OpenAI:大号实验室

翁家翌是 OpenAI 第 280 号员工(现在已超过 3000 人)。他对 OpenAI 的初印象是"一个大号的实验室"——没有想象中那么有方法论,但有很多 research 直觉很强的人在里面,可以指明方向。

OpenAI 的"先进生产力"引入

一个关键转折点是 Barret、Luke 和 Liam 三人从 Google 加入 John Schulman 的 RL team 之后。他们引入了 Google 的先进生产力——一种哲学理念:不要想天才的 idea 和天才的算法,先把 infra 打好,让迭代速度从一周三十次提升到一周三百次。翁家翌展示了一张图:单位时间的迭代次数和成功率成正比——这本质上就是 RL 的做法(trial and error)。

ChatGPT 的诞生:意料之外的指数增长

翁家翌透露了 ChatGPT 发布的内部视角:发布的初衷只是为了收集一些真实用户数据,预期可能有一两万人用,然后五天之后如果没人就关了。结果用户增长曲线是指数级的。ChatGPT 的爆发完全不是计划出来的,而是"一系列半偶然半必然的化学反应"。

ChatGPT 发布的内部预期

OpenAI 内部对 ChatGPT 的最初预期非常保守:上线后可能有一两万人使用,如果五天后用户量下滑就关掉。没有人预料到会出现指数级增长。这个故事说明,即使是 AI 前沿的顶级团队,也无法准确预测一个产品的市场反响。真正伟大的产品往往不是计划出来的,而是在偶然和必然的交汇中涌现的。

搭建 Post-Training RL Infrastructure

翁家翌在 OpenAI 的核心工作是搭建整个 Post-Training 的 RL Infrastructure。这个 infra 处于整个技术栈的最顶端——最面向"客户"(内部 researcher)的一层。

他为自己设定了一个明确的 reward function:最大化自己在 OpenAI Blog 上出现名字的次数。要实现这个目标,做 infra 比做单个 research 更有效,因为 infra 可以 scale up——大家都用你的 infra,每发一个大模型你的名字就得放上去。主持人评价道:"你真的很会给自己写 reward 啊。"

翁家翌解释了这个 reward function 背后的逻辑:如果做单个 research 项目,每次只能影响一个发布;但如果做 infra,所有使用这套 infra 训练出来的模型都会在 contributor list 上带你的名字。并且他擅长写 RL Infra,所以这是一个"非常非常适合的机会"。

Infra 的核心价值:Bug 修复 = 模型质量

翁家翌提出了一个犀利的观点:每家的 infra 都有不同程度的 bug,谁修的 bug 越多,谁的模型训练就越好。他甚至猜测 LLaMA 打不过 GPT 可能就是因为 LLaMA 的 infra bug 更多。在他看来,AI 前沿竞争的本质不是算法创新,而是infra 的正确性和迭代速度

下一代 Infra:推倒重来

翁家翌透露 OpenAI 正在推倒重来,重构内部的 RL Infra。原因是之前那代 infra 已经运行了三年多,堆积了大量 technical debt。新的 infra 目标是清理历史债务,给 researcher 更好的 iteration speed。

他透露自己"其实已经不在最核心的位置了",但认为应该做一些更重要的事情——重构 infra 就是其中之一。这与天授的经历形成了呼应:当一个系统积累了太多的不一致性和技术债务,最好的做法可能就是推倒重来,基于新的认知重新设计顶层架构。

Infra 的生命周期与技术债务

翁家翌的经验表明,即使是世界顶级的 AI Infra,也有约三年的"有效生命周期"。之后技术债务累积到一定程度,patch 的成本超过重写的成本,就需要推倒重来。这与天授的情况类似——翁家翌离开后,新的维护者由于 context 不同,不可避免地引入了不一致性。任何由人维护的系统都会逐渐腐化,关键是何时以及如何重置。

在 OpenAI 的 infra 体系中,researcher 不参与 infra building——他们提需求,infra 团队来实现。最终 researcher "可能到时候就改一个 flag 就好了"。

Researcher 与 Engineer 的分工

在 OpenAI 内部,infra 和 research 有明确分工。Researcher 负责提出 idea 和需求,engineer 负责搭建正确的 infra 和快速迭代。翁家翌认为"idea is cheap"——idea 找人讨论就能出来,难的是在单位时间内能正确验证多少有效的 idea。

本章小结

翁家翌在 OpenAI 的定位是"卖铲子的人"——不挖金矿,但给每个挖金矿的人提供最好的铲子。Post-Training RL Infra 处于技术栈最上层,生态位极高。他通过这个定位实现了 impact 的 scale up:每个使用这套 infra 训练的模型发布时,都会带上他的名字。

工程哲学与方法论

教 Researcher 做 Engineering 比反过来更难

翁家翌引用同事(一位搞过知名 RL framework 的 PhD)的话:

Engineering vs Research 的非对称性

"教一个 researcher 如何做好 engineering,要远比教一个 engineer 如何做好 research 来得难。"在当前 AI 时代,工程能力的价值超过了学术能力。因为 research 直觉可以通过在行业中长期工作积累,但扎实的工程能力需要长时间的刻意训练。

迭代速度决定一切

翁家翌反复强调的核心理念:单位时间内的正确迭代次数是 AI 研究成功的决定性因素。具体来说:

  1. Infra 的正确性:没有 bug 的 infra 意味着每次实验结果可信
  2. 迭代速度:从一周迭代30次到一周迭代300次,成功率线性增长
  3. Bug 修复吞吐量:单位时间内能修多少 bug,能正确迭代多少次

算法创新不是瓶颈

翁家翌认为当前 AI 前沿的瓶颈不在算法创新。"如果你把 bug 全修了,有可能算法连改都不用改就很好。"很多看似需要新算法才能解决的问题,实际上可能只是 infra 的 bug 导致的。这与学术界专注于提出新算法的范式形成了鲜明对比。

代码一致性与项目腐化

翁家翌将一致性(consistency)视为软件项目和组织管理的第一原则。项目腐化的根源是不一致性——多人协作时,每个人的 context 不同,假设无法传递,导致代码膨胀和质量下降。

他认为管公司和管代码库本质上是相同的——都需要保持 consistency。如果不一致,代码库会臃肿,组织架构也会臃肿。解决方案是信息流通畅——上面的决策能无损传达到下面,下面的进展能无损传达到上面。

翁家翌进一步将这个问题推向了极致:context sharing 理论上应该由一个拥有无限长 context 的 agent 来替代。因为人脑的 context 是有限的,无法同时存储整个组织的所有信息。但 AI 可以。未来也许每个公司都有一个这样的无限 context agent 来当 CEO,负责所有的 sharing 和 decision——"可能没有比这样的 agent 更适合的 decision maker 了。"这个展望将他的工程哲学、AI 信念和组织管理思考统一了起来。

本章小结

翁家翌的工程哲学可以概括为三个核心原则:(1)一致性优先——一个人把所有东西全包了,虽然不利于长期扩展,但能保证一致性;(2)迭代速度优先——不追求一次性的天才算法,而是通过快速试错逼近最优解;(3)正确性优先——修 bug 比写新 feature 更重要。

行业洞察:学术界 vs 工业界

PhD 还值得读吗?

翁家翌对 2025 年面临选择的年轻人给出了明确建议:

翁家翌的职业建议

如果你想进工业界,那么读 PhD 就是浪费生命。你完全可以用 Master 甚至本科为跳板,通过积累差异化的项目经验(特别是 infra 方面)来与 PhD 候选人同台竞争。"招人最主要的目的是招能用、能干活的人。"

他认为学术界正在被重构。当前 AI Lab 最需要的是 infra 人才——infra 是一个"无底洞",有 research 直觉的人本来就那么几个(在行业干了三年以上的人屈指可数),剩下的瓶颈全在 infra。

翁家翌建议年轻人的思路应该是:先弄清楚 AI Lab 到底需要什么样的人,然后让自己去匹配。如果他们更需要 infra 的人,就多做 infra 的活,哪怕没有 PhD degree 也没有关系——"更重要的是看你的经验能不能 match、有没有用"。他强调,如果你是一个 new grad(应届毕业生),有一段与目标工作高度匹配的经验,"可以抵好几年的工作经历"。

评价体系的演变

翁家翌的经历展示了评价体系从学校到工业界的演变:清华用 GPA → 导师用论文/比赛/GitHub star → OpenAI 用 infra 贡献和模型发布次数。每一个阶段的评价标准都不同,关键是提前识别下一阶段的评价标准,而不是在当前阶段过度优化。这本身就是一种"投资未来"的策略。

学术界 RL 研究与工业界的脱节

翁家翌指出了学术界和工业界在 RL 领域的巨大鸿沟:

学术界 工业界
对着 Atari / MuJoCo 几个 task overfit 用 RL 解决真实问题(如 LLM 对齐)
比谁在 100K step 时分数高 比谁的模型在真实用户场景更好
追求新算法发论文 追求 infra 正确性和迭代速度
几块卡的小实验 大规模分布式训练
RL 研究的学术界 vs 工业界对比

翁家翌在 2022 年 8 月意识到这一点后,逐步停止了天授的开发——因为天授仍然是针对 toy benchmark 的,而他应该投入更有意义的事情。他说当时明确意识到"我应该投入更多的时间到更有意义的事情里面"——一旦看清了学术界 RL 和工业界 RL 的本质区别,继续维护针对 toy benchmark 的框架就失去了吸引力。

翁家翌还引用了他同事的一句话来总结这种差距:

Idea is cheap — 验证 idea 的能力才贵

"Idea 非常便宜。你要做的就是在单位时间内能够验证多少有效的 idea,并且要是正确的 infra、正确的结果、快速的迭代。"动脑子的人可能是像 Alec Radford 那样从 GPT-1 就开始做的人,他的 research 直觉比普通 PhD 动脑子更有用——所以 idea 找他讨论就好了。剩下的瓶颈全在 execution。

本章小结

在 AI 快速发展的今天,传统的学术路径(PhD → Paper → 教职)正在被重新评估。翁家翌的经验表明,工程能力、差异化的项目经验和对需求的精准把握,可能比学历和论文数量更能决定一个人的职业发展。

OpenAI 的组织文化与竞争格局

人才密度与组织架构

翁家翌赞同 Sam Altman 的说法:"在一个人才密度极高的小团队里,任何平庸的表现都是不能被容忍的。"人才密度高可以自发涌现出意想不到的东西。

OpenAI 的信息流通机制

OpenAI 保持创新能力的关键是信息流通通畅。Sam Altman 有专门的研究助理帮他了解最新的内部研究进展;Greg Brockman 对整个 infra 底层几乎都参与过。领导层对技术细节的深入了解,确保了决策层和执行层的信息一致。

从 280 人到 3000+ 人,OpenAI 面临的核心挑战是如何保持小团队的创新效率。翁家翌认为概率在下降但没有下降太厉害——关键是能划分出小团队专门做研究,同时简化组织架构、取消不合理的 meeting。

Sam Altman 被开除事件的内部视角

2023年11月 Sam Altman 被董事会开除的事件中,翁家翌提供了内部视角:底下干活的人完全不知道发生了什么,非常 surprise。董事会对员工缺乏透明度,决策过程不透明。核心原因是 Ilya 等董事会成员对 Sam 的不信任——不是不信任某个技术决策,而是不信任这个人。

翁家翌的核心诉求是组织稳定——"不要再出现一次公司差点倒闭的事"。组织架构的稳定有利于快速向前推进。在他看来,实现 AGI 的最大机遇和挑战都是一个词:执行——"对着正确的方向执行,只要能执行就好。"

DeepSeek 的竞争与 OpenAI 的挑战

翁家翌坦率地分析了 DeepSeek 的竞争优势:

大公司的规模劣势

翁家翌认为 DeepSeek 的效率远高于 OpenAI——代码库小、沟通成本低、专注于特定 use case。而 OpenAI 要同时考虑很多 use case,各方面 trade off,组织大了必然面临效率下降。但 OpenAI 在用户反馈等其他维度有优势,这是 trade off。每个公司都会变慢——看谁不那么慢。

翁家翌透露 DeepSeek 开源后,OpenAI 内部确实重新评估了开源策略。John Schulman 甚至问过他要不要把 RL Infra 开源,但出于公司利益考虑,翁家翌当时认为不太合适。不过他表示如果有无限资源,他"当然会很开心"地开源。

这里涉及到一个博弈论问题:OpenAI 如果开源最前沿的技术,其他公司会马上追上来,然后 OpenAI 可能融不到资、没有人持续输血。翁家翌认为"不是所有人都同条心的"——哪怕 OpenAI 想为了 AGI 造福全人类而开源,也有人只想借此赚钱。为了防着这种情况,OpenAI 不得不闭源。

开源的博弈论困境

翁家翌指出了开源策略的核心矛盾:理论上存在一条路径——开源并接受社区反馈可以更好地实现 AGI。但实际执行非常困难,因为(1)你是第一名,开源了别人马上变第一;(2)别人再训练一下就超过你;(3)导致你融不到资。这是一个典型的囚徒困境——个体理性导致集体次优。

关于"OpenAI 的 Open"

翁家翌对 OpenAI 的"Open"做了独特的解读:

OpenAI 的 Open:面向普通人

OpenAI 的 Open 不是对其他大模型公司的 Open,而是对普通人的 Open——以尽可能便宜的价格(甚至免费 tier)让所有人都能接触到最先进的技术。"你丢一个裸的模型权重,普通人也不知道怎么用。"真正的 Open 是让技术触手可及。

本章小结

OpenAI 面临的核心矛盾是规模增长与创新效率之间的张力。信息流通的一致性——无论是代码库、组织架构还是人际沟通——是翁家翌反复强调的解法。他甚至设想了一个极致方案:未来可能有一个拥有无限 context 的 AI agent 来当 CEO,负责所有的 context sharing 和 decision making。

未来展望与 AI 前沿

RL for LLM 还需要 Breakthrough 吗?

翁家翌的回答是有可能,但更紧迫的任务是先把现有的方法和计算资源榨干。当前的状态是"还没有 scale up 完全"——先 hill climb,看看现有方法的上限在哪里,再考虑是否需要新范式。

他强调了一个关键认知:不能用当前的状态来预测接下来会发生什么。可能有新的 RL 范式,可能有新的 post-training 范式,都有可能。每天都面对未知的挑战。

最大的瓶颈在哪?

翁家翌认为未来大模型的最大瓶颈仍然是 infra:

  1. 修 infra 的吞吐量——单位时间内能修多少 bug
  2. 单位时间内能正确迭代多少次
  3. 这两个指标决定了整个团队的生产效率,可以赋能所有其他工作

"算法也好,环境也好——如果你把 bug 全修了,有可能算法连改都不用改就很好了。"

如果 AI 能解决一个世界难题

被问到希望 AI 解决什么世界难题时,翁家翌的回答出人意料:如何预测未来——不是预测杯子怎么掉,而是预测整个人生、世界格局、所有的一切。这个回答与他的决定论世界观一脉相承——如果世界是确定性的马尔科夫过程,理论上就应该可以被预测。

但他同时也意识到这样的工具可能是一场灾难:"如果拿到一个能够预测未来的机器,那对个人而言其实是一个灾难——会导致所有价值体系的崩塌。"他甚至认为,如果有这样的 AI 模型被开发出来,"最好的选择是毁掉它,让它永远不要出来"。

翁家翌的日常与身体管理

翁家翌透露了他在 OpenAI 的工作状态。他认为自己的日常维护工作"并不需要那么多智商"——只要在对的方向上做对的事就好。他还分享了一个反差感很强的细节:在清华时体育课 3000 米不及格,但现在养成了每周两次跑 3000 米的习惯——"首先你要确保你的身体是健康的"。这是他"投资未来"哲学在身体管理上的延伸。

天才的谦逊与自我认知

翁家翌多次强调自己并不特别——"如果把我换做任何一个人,如果他有我的 context 的话,他应该也完全可以胜任"。他认为自己很幸运在这个位置,但这个事情"换任何一个正常的人类也可以做"。这种谦逊可能是真诚的——他把成功更多归因于正确的位置(OpenAI + RL Infra)和充足的 context,而非个人天赋。

本章小结

在翁家翌看来,AI 的未来既充满确定性(scale up 的路径清晰,infra 需要不断优化),也充满不确定性(新范式随时可能出现)。他选择的应对策略一如既往——在对的方向上做对的事,把 infra 打好,让快速迭代来解决一切。

世界观:宿命论、自由意志与人生意义

确定性的马尔科夫过程

在访谈的哲学部分,翁家翌展现了与技术话题截然不同的一面。他坚定地认为:

翁家翌的世界观:决定论

我们生活在一个确定性的马尔科夫过程里面。所有的东西都是可以被预测的——你脑子里在想什么,下一个单词说什么,全都是宇宙大爆炸那一刻就定好了的。人没有自由意志,宏观世界不掷骰子(微观量子力学的随机性可以在"后台修改世界线"来解释)。

他承认这是一个"相当悲观的世界观",自己内心深处也不愿意接受——就好像自己变成了一个被模拟的原子。但基于他的个人经历,他认为这确实是事实。他表示"这个我已经验证无数遍了",虽然不方便透露具体的个人经历。

主持人进一步追问:量子力学的不确定性呢?翁家翌的回答是"宏观不掷骰子,微观掷骰子"——但微观的随机性可以被解释为"在后台修改一些世界线"。他承认"你可以把我说的话认为是扯淡",但他依然坚持这个观点。

这个世界观与他从事 RL 工作形成了有趣的张力:RL 的核心假设是 agent 可以通过选择不同 action 来改变未来的 reward,但如果世界是确定性的,那么 agent 的"选择"本身也是预先决定的。翁家翌是否意识到了这个张力?他的回答暗示了肯定——"有人想开发这种(预测未来的)模型,只是为了搞清楚这个世界背后运行的规律"。

投资未来的悖论

主持人敏锐地指出了翁家翌世界观中的矛盾:如果一切都是确定的,你投不投资未来都会到达那个点,那为什么还要投资?

翁家翌的回答是:"投资一下还是会更好的嘛。"但当被追问"确定性的过程下你的投资不会有任何影响"时,他承认:"投资未来可能也是确定性的——你投不投资也不是自己的自由意志。"

人生迷茫期

访谈结尾,翁家翌坦率地分享了自己当前的状态:

翁家翌的当下状态

翁家翌处于职业生涯的某个迷茫期。曾经很喜欢的 RL Infra 工作,随着时间推移变得越来越确定性。他"曾经想通了自己想要什么,但现在又想不通了"。他的短期目标是提前退休,获得足够的资本,然后花时间找到自己真正想做的事。对未来10年的自己,他唯一的期望是"做自己那个时候想做的事,有足够的资源和能力"。

本章小结

翁家翌的哲学思考为整个访谈增添了深度。一个搭建了 OpenAI 核心 infra 的工程师,在哲学上却是一个彻底的决定论者。他认为 AGI "板上钉钉",剩下的都是"很确定性的事情","已经看到头了"。但这种确定性反而让他感到迷茫——如果一切都是确定的,努力的意义在哪里?

他对10年后的自己只有一个期望:"做自己那个时候想做的事,有足够的资源和能力。"主持人追问"你不去干预他那时候想什么?"翁家翌回答:"因为想法是会变的,可能你想什么也不重要。"然后他补充:"我现在所能做的就是投资那个时候的我——还是投资未来,让他有选择的权利。"

他给出的最后留言是:"去探索说到底自己想要什么——这个问题值得一生去思考。"

总结与延伸

翁家翌的核心理念

纵观整场两小时的深度访谈,翁家翌展现的核心理念可以归纳为以下几点:

  1. 投资未来:从初中提前学高中数学,到大学做非功利的开源项目,到 OpenAI 搭建通用 infra 而非单个 research project——长期主义思维贯穿始终。
  2. 打破信息差:开源作业、开源天授、开源 tuixue——他一直在做信息平权的事。"代码即慈善"不是口号,而是实践。
  3. 一致性优先:无论是代码库、组织架构还是个人发展,consistency 是第一原则。腐化源于不一致。
  4. 自定义评价体系:不被 GPA、PhD、论文数量等外部标准束缚,而是找到适合自己的评价维度(impact、GitHub star、OpenAI Blog 出现次数)。
  5. 需求驱动:天授、tuixue、RL Infra——每个项目都始于真实需求。技术不重要,抓住需求才重要。

对年轻人的启示

翁家翌的经验总结

(1)先搞清楚你的目标用户需要什么,再决定做什么——无论是求职还是创业。\ (2)差异化比学历更重要——Master 可以通过优秀的工程项目击败 PhD。\ (3)Idea is cheap, execution is everything——在单位时间内正确迭代的能力才是核心竞争力。\ (4)找到自己的评价体系,但不要成为它的奴隶。\ (5)做"慈善"式的项目——帮助他人的过程中获得的 impact 和满足感,往往比金钱回报更持久。

延伸阅读

  • 天授(Tianshou)GitHub 仓库:https://github.com/thu-ml/tianshou
  • 翁家翌的清华开源作业仓库
  • OpenAI 官方 Blog——可在每个 model release 的 contributor list 中找到翁家翌的名字
  • DeepSeek 技术报告——了解翁家翌提到的竞争格局
  • John Schulman 的 RL 相关论文和演讲