青稞 AI 嘉年华:LLM/MLLM 专题圆桌
| 字段 | 内容 |
|---|---|
| 作者/整理 | 主持:陈嘉乐 嘉宾:曹玉、薛福昭、刘子伟、谢天宝 |
| 来源 | 青稞社区 |
| 日期 | 2025 |

引言与嘉宾介绍
本场是青稞 AI 嘉年华 LLM/MLLM 专题圆桌讨论,由陈嘉乐主持,围绕三大主题展开:预训练(模型架构、数据、多模态统一)、后训练(RL、Reasoning)、以及Agentic & Tool Use。
四位嘉宾
- 曹玉——某厂多模态大模型后训练 & RL 方向。长期深耕强化学习与后训练,2025 年是其方向“开花结果”的一年。
- 薛福昭——Google DeepMind Research Scientist,主做 Pretraining Scaling Law、Data-Efficient Scaling、Distillation 与 Model Architecture。来自 Google 内部视角,认为 Pretraining 仍在稳步前进,并未放缓。
- 刘子伟——新加坡南洋理工大学。关注 Reasoning、Model Architecture(含 Diffusion LM)、原生多模态等三个方向,认为学术和工业都有很多有趣的工作涌现。
- 谢天宝——香港大学 PhD,主攻 Computer Use 与 Multimodal Agent 工程。偏 Engineering Science,强调工程能力在当下大模型迭代中的核心地位。
2025 年整体印象:AI 一年,人间三年
从 DeepSeek R1 的突破开始,整个行业被按下加速键。开源模型在 Reasoning 领域迅速追上 O1/O3 等闭源模型。文生图、文生视频等应用蓬勃发展。头部模型的能力边界仍在快速扩展,发展速率远未放缓。
本章小结
四位嘉宾分别来自 Google DeepMind(预训练)、学界(NTU/HKU)、工业界(后训练/RL),视角互补。2025 年是 AI 加速发展的一年,无论预训练、后训练还是应用层,均取得了显著进展。
模型架构:MoE vs Dense
MoE 的短期优势与长期隐忧
主持人提出:MoE 和稀疏注意力已成为主流做法,大家对效率的关注是否已超过对效果的关注?
薛福昭:MoE 长期可能被干掉
MoE 本质是用 memory(参数量)换 FLOPs——同时意味着 data efficiency 较差。但长期来看 FLOPs 永远是最便宜的:尽管摩尔定律不再完美,芯片提升速度仍比数据增长快得多。因此:
- 一切用其他东西换 FLOPs 的方案都是短期 solution
- 一切用 FLOPs 换其他东西的方案都是长期 solution
模型可能会逐渐回到 Dense,甚至像 Diffusion Model 那样变成 Super-Dense。
曹玉(后训练视角):完全同意 FLOPs 是唯一确定性变量。但补充一个观点——传统不含合成数据的预训练“可能已经 dead 了”。像 Gemini 这样的模型从预训练阶段就引入大量合成数据,相当于用 FLOPs 换 Data,再用 Data 做 Scaling。如果预训练本身已在做“FLOPs for Data”,那 MoE 作为带宽受限硬件体系下的工程解仍有其价值。
刘子伟:短期和长期存在 Trade-off,个人稍偏 Dense Model。但考虑具体部署场景,MoE 仍有其使用特点。此外,有人在探索下一代计算架构(存储与计算更紧密耦合),这可能在 3--5 年后影响架构选择。
谢天宝:Model Architecture 研究已进入百花齐放状态。MoE 只是工业界的成熟方案,学术界还有更多探索。关键是架构设计应跟随 Learning Paradigm 走——如果未来 Continual Learning 变得重要,架构选择也会随之改变。
OpenAI 的共识:从 Compute-Bound 到 Data-Bound
薛福昭指出,OpenAI 在 GPT-4.5 发布时公开表示,整体已从 Compute-Bound 转向 Data-Bound——这是整个 Community 的共识。
本章小结
MoE 是当前硬件约束下的工程最优解,但长期可能回归 Dense。预训练范式已发生变化:合成数据的大量引入使得“传统预训练”的边界模糊化。架构选择最终取决于硬件演进和学习范式。
原生多模态 vs 桥接式多模态
两种路线的对比
主持人引入讨论:原生多模态(直接将 pixel 变成 token,从早期就图文混合训练)vs 桥接式(先训 LLM,再接 ViT + adapter)。
薛福昭:Native 更 Clean,但 Encoder 有工程优势
桥接式(Encoder-based)的优点:
- Encoder 和 Decoder 可分开训练,更容易优化
- 可以灵活压缩 Token 数量,全局计算效率更好
桥接式的缺点:
- Encoder 的训练目标(CLIP? Detection? Reconstruction?)无法保证对下游完全无损
- Infra 复杂度高:Image 位置不规则导致 Sequence Parallelism 时 workload 不均衡,需要复杂的 reshuffle/recompute,对 MFU 伤害很大
Native 的优点:pixel token 与 text token 无区别,Infra 层面几乎不需要修改纯 LM 的基础设施。
刘子伟(偏好 Native):Native 的三大优势:
- Data 全局考虑——不用先训 ViT 再接 LM,数据配比更统一
- Emerging Ability——早期就有 Interleaved Data,Early Fusion 可能带来涌现能力(Gemini 3 据报道重训了原生版本)
- Infra Clean——可直接复用 LM 的 Infra,部署更简单
但目前缺乏一个所有人都能用的开源 Native Multimodal Codebase/Checkpoint。
谢天宝:Native Multimodal 从 2023 年 Gemini 1 就开始讨论。本质上是工程成熟度的问题——工业界手里有想法但工程能力还没完全跟上,还在吃当前方案的红利。最终哪种方案留下来,取决于可维护性和可控性(类比软件工程)。
曹玉(数据视角):多模态模型的发展跟着数据的可获得性走。原生多模态有更好的数据亲和力——对于后训练来说,base model 基础能力越强越好,native 架构在这方面有天然优势。同时提出一个未解问题:原生多模态的输出端应该包含哪些模态?输入端(text/vision/audio)没争议,但输出端各执一词——人本身并没有 vision native 输出能力。
LLM 与 VLM 为何分开?何时统一?
主持人指出:国内很多厂商仍将 LLM 和 VLM 分开发布,而国外(GPT、Gemini)倾向统一模型。
薛福昭:闭源模型是黑盒,可能内部就是两个模型路由。如果用 Encoder + Decoder 结构部署,最佳做法是分两个芯片——text-only query 不需要 vision encoder 的 memory。合在一起会让问题更复杂,但在 Serving 层面是可解的。
谢天宝:LLM/VLM 分开与 Coding/Math/Tool Use 分开研发的原因一样——分支开发、然后合并是工程上的常见做法。目前处于一个“中间版本”的状态。
曹玉:VLM 和 LLM 分开是暂时的。对于真正有智能的操作体,理解世界的能力一定不是单一模态的。当前分离是因为 Transformer 在 discrete signal 上远比 continuous signal 建模成熟。长期一定会克服工程/组织/技术问题,迈向原生输入多模态。
刘子伟:短期分开有历史因素(Benchmark 偏文字智能、Vision 对排名影响不大)。但从 Physical AI 的角度看——需要长程决策(long-horizon action/decision)和多模态融合,这些场景必须统一。人类是“先有运动能力后有语言”,AI 是反过来,最终也要解那些需要 sensory input 的底层任务。
本章小结
Native vs Encoder-based 各有优劣,短期共存,长期趋向 Native。LLM/VLM 分开是工程/组织的暂时状态,Physical AI 时代必然统一。
合成数据与 Mid-training
Mid-training 的定位
曹玉:Mid-training 是 World Model 建模的训练中间态
Mid-training 的定义一直不严谨。早期它是“达不到 SFT Golden Label 质量的指令数据”。现在的认知更高:
- RL Post-training 是对已有知识技能的组合与泛化
- 这些技能需要在 Mid-training 阶段被模型理解和体会
- Mid-training 数据不仅教模型“怎么做事”(Policy Model),也在建模世界的状态转移(World Model)
- 观察数学等 Mid-training 数据:Loss Mask 与 SFT 不同,模型可以看到中间状态转移
在 Policy Model 和 World Model 功能压缩到同一模型的时代,Mid-training 质量很大程度上决定了 Post-training 质量。
合成数据的两大挑战
薛福昭:合成数据的核心风险
挑战一:跨代迁移——当前模型生成的合成数据,其 gain 能否 transfer 到下一代更大的模型?直觉上就是 challenge,实践中也是。相当于用当前模型的 ceiling 去训练下一代。
挑战二:前置质量 vs Post-training Gain——将 Post-training 模型生成的数据“回灌”到更早的训练阶段,可能会蚕食 Post-training 本身的 gain。因为 Pre \(\to\) Post 本质是 data quality 不断提升的过程,提前引入高质量数据后,Post-training 的边际收益可能下降。
附加风险:大模型记忆力强,合成数据不可避免包含与训练数据相似的分布,导致隐式 repeat \(\to\) overfitting \(\to\) Model Collapse。
Mid-training 是否引入新知识?
谢天宝:业界共识是 Post-training 将 Pre/Mid-training 中已存在的 trajectory 的 pass rate 从 pass@64 拉到 pass@1。如果 Pre/Mid-training 没有见过足够好的数据,Post-training 很难强行学到。同时 Post-training 的 token 窗口有限,不能放太多数据,必须在 Mid-training 补回来。
刘子伟:学界有 NeurIPS Best Paper Runner-up 级别的工作研究这个问题——Pre-training 奠定知识的大分布,Mid-training 把 boundary 往外推。但如果考虑原生多模态模型,Mid-training 可能需要不一样的 signal(不只是 language),以及 learning to learn 的能力。
数据分析的科学化
谢天宝指出:很多厂商和学校对数据的分析能力有限——“数据要不要、放在哪个阶段”主要靠人判断。Active Learning、Self-Improvement 等概念虽然存在,但与工程师手动管理主流模型训练之间仍有很大脱节。数据管理的科学化是一个值得深入研究的方向。
多模态数据瓶颈与 Vision-Centric 路线
曹玉:语言模型得益于互联网海量文本,但不可能有第二个互联网提供同等规模的 text-vision pair。低等动物没有 text 概念但生存了很久——VLM 可能不需要那么多数据就能打底,更多应该通过环境交互(RL 或 reward-free 的 learning from experience)来学习。
刘子伟:可以回看前深度学习时代的视觉自监督工作(何恺明、Alusha 等)获得启发。团队尝试过 Visual Jigsaw(打乱图像/视频让模型恢复顺序),能激发 low-level 和 high-level 特性,包括空间智能——这是当前最强模型(GPT-5、Gemini)也做不好的方向。
薛福昭:Vision-Centric 是长期方向
反对纯仿生路线(人/动物的 vision perception 很大程度来自 physical touching,机器很难获得这种 signal)。但摆脱对文本的依赖是 make sense 的:pixel reconstruction、next frame prediction 等方式可以提供海量 vision token。当 compute 再翻 10--100 倍时,text-image pairs 一定跟不上,直接用 vision 硬搞是可行的。
本章小结
Mid-training 不只是“质量略低的 SFT”,而是 World Model 建模的训练中间态。合成数据面临跨代迁移和 Model Collapse 风险。多模态数据瓶颈可能通过 Vision-Centric 自监督路线突破。
后训练与强化学习
RL 的核心要素
谢天宝(工程视角)列举了 RL 的四大要素:
- Environment——题面(问题集)+ Sandbox(执行环境)。不同场景要求差异巨大,有些甚至需要 replicate 整个 Internet。
- Foundation Model——Mid-training 质量、Cold Start SFT、模型本身的 RL 调性都很重要。
- Training Infra——RL 任务的 context 显著长于 SFT;inference engine、context management、agent memory 设计都需要来回迭代。
- RL 算法——算法设计又反过来要求 environment 和 training infra 的配合(如 traceback 支持、efficiency 优化)。
这四者高度耦合,涉及的工程细节极多,很难在学术界完整研究,也很难一次性掌握 know-how。
曹玉:RL 是闭环控制,问题定义比算法更关键
RL 本质上是带反馈信号的闭环控制,信号链路中每个环节都重要。DeepSeek R1 之所以成功,关键在于问题选取与定义的清晰度——这远比具体算法更决定成败。
当前 RL 面临的现实挑战:
- 环境出 bug 概率极高
- 问题选取难度大
- Reward 获取 sparse
- 不同任务间的矛盾冲突仍依赖 human-centric 方式解决
RL 正在朝专业化方向发展:做 coding 的人必须成为好的 reward model,做垂类(金融、法律、医疗)也必须懂领域。
RL 的 Scaling Law 缺失
薛福昭:RL 最大的问题之一是缺乏开源级别的 Scaling Law。开源模型发布的是 train 好的 7B/14B/70B,不是 Scaling Curve 上完整可预测下一个 tier 的模型。导致:
- 训完小模型不知道大模型会发生什么
- 迭代依赖最终的大 Run(又慢又贵)
- RL 本身 loss 上蹿下跳,environment 不稳定(package 更新、异步问题),结论非常 noisy
一旦建立稳定的 Scaling Law + Leaderboard,RL 的迭代效率会大幅提升。
RL 的泛化性问题
曹玉:RL “训什么有什么,但不代表其他方面会提升”。当前 RL 参数更新量仍处于“小扰动”范围(极低 LoRA rank 就能打平 full-parameter),导致单任务能力难以自然泛化到其他领域。但 RL 相比 SFT(offline imitation learning),在理论上应有更好的泛化性——关键是 RL 的 Scaling 还远未达到 promise 的量级。
刘子伟:不追求强泛化到完全 unseen task,能在已知 task 矩阵内有一定内插能力就已经足够 impressive。类比 2018 年 Meta Learning 那一波也没找到 general 的泛化方案。Task 和 Environment 的 Scaling 可能是泛化性的关键。
薛福昭:Generalization 的定义不 clear。如果按 FLOPs 计(每个 task sample 1024 条 trace),RL 对指定 task 的泛化性应该更强(比 SFT 每条 sequence 一个 task)。关键瓶颈是无法获得 trillion 级别的 environments。
刘子伟:去伪存真
过去半年 RL 因 reasoning 大火涌现了大量变种 trick。但最近的工作(如 Just RL)发现,很多 trick 并不有效——最朴素、最干净的方案把超参调好就能达到最优。经历 bubble 后,社区开始区分哪些进展是真的。
本章小结
RL 已从“锦上添花”变为提升模型能力的核心工具,但面临 environment 复杂度、scaling law 缺失、泛化性不足三大挑战。DeepSeek R1 的成功源于问题定义的清晰而非算法创新。RL 正在走向专业化。
Agentic & Tool Use
当前 Agent 的核心瓶颈
谢天宝:过去一年最大突破是从短时任务到多步长时任务。但决策质量仍然很低——观察 trajectory 会发现关键 decision 经常出错(Deep Research 的 report 不反映事实,Coding Agent 引入 bug 后反复 debug)。第二大问题是 Context/Memory 管理:当 multimodal agent 的 token 足够多时,很难在无损信息的前提下存储、管理和利用 memory,这导致 agent 有能力上限。Memory 的表示、管理和利用——本质上还是 2020--2023 年的研究方式(如 symbolic memory management),并未根本性改变。
刘子伟:三个关键点:
- Long Sequence——Tool Use 越实用,状态越长;end-to-end 解需要突破 long sequence 的 action space
- Self Reflection——每步出错概率随步数累积,强纠错/恢复能力是 real-world 落地的关键
- 技能迁移——Computer Use 中学到的 skills 有没有可能 transfer 到 Physical World(大部分 robots 不会用工具)。人之所以快速上手电脑图标,是因为图标抽象了现实工具的元素——反过来也可能成立。
曹玉:2025 年最 Impressive 的 Agentic 产品
软件:Claude Code——强长程 agentic 能力,在 digital world 中做到了理想中 agentic AI 应做的事。由此可见 Anthropic 对 Agentic & Tool Use 的理解达到了很高水位。整个产业因此发生变化,大部分 coding 服务商都把 Claude Code 作为核心服务之一。
硬件:豆包手机——可以自动刷抖音极速版赚钱并用微信转账,非常 impressive。但几天后很多功能被限制(不能打开微信、不能跨平台比价),暴露了agentic AI 技术水平与国内厂商开放政策之间的矛盾。
核心观察:在 Digital World 中 scaling 到 trillions of environments 很难。一种可能的 paradigm 是直接把 agent 推向真实世界(如 Claude Code 做软件、豆包手机做硬件),让世界给出 reward signal,而不是在模拟环境中无休止地训练。
薛福昭:对 agentic 不是专家,但相信从 Tool Use \(\to\) Web Agent \(\to\) Gaming(Minecraft \(\to\) 魔兽 \(\to\) GTA 级 3A 游戏)\(\to\) Physical AI 的路径。Gaming 是重要的中间步骤——3A 游戏提供了非常真实的 simulator 环境。
本章小结
Agent 已能处理长时任务但决策质量低、Memory 管理是硬瓶颈。Claude Code 是 2025 年 agentic 的标杆产品。真实世界的 reward signal 可能比模拟环境更有效。Gaming 是通向 Physical AI 的关键中间步骤。
持续学习与 Memory
Continual Learning 的工程挑战
谢天宝:以 Cursor 为例,它做了简单的 Continual Learning(Type 补全),但周期不实时(几小时更新一次),且面临 messy signal、小 batch size 下有效梯度、灾难性遗忘、恶意攻击等问题。核心问题是:过去我们训完模型就 freeze 做 inference,从不在 inference 时更新参数——这是一个巨大的范式差异,也是非常大的研究方向。
曹玉:从逻辑上说 “FLOPs for Continual Learning” 是自然且和谐的——用 FLOPs 换持续的智能提升。但工程挑战巨大:用什么方法去 Learn(LoRA?Sparse Update?)、能否做到 Per User Per Model 的 Serving?希望 2026 年有机会了解哪些模型架构或方式能真正把 Test-Time Training 做出来,而非仅停留在理论推导和小 toy example 上。
Parameter-based vs Context-based 两条路
薛福昭:不搞花里胡哨,直接用 Context
Lifelong Learning 有两条路:
- Parameter-based——LoRA / MoE 加 Expert / Embedding Bank。风险:模型越大越不稳定,小 batch size 的 backpropagation 很 risky,长期使用体验可能退化。
- Context-based——搞一个 Prompt Database(类似 Memory Retrieval),把历史写进去。唯一缺点是 context 很长——但长 context 本质上还是 FLOPs,回到开头的原则。
建议:不要花里胡哨,直接搞成 context + retrieval。模型的 knowledge 更新就交给周期性的新版本发布(反正现在几个月就出一个新 model)。
刘子伟:大模型可能像一个 OS——包含不同区域,某些参数应慢更新(Low-frequency knowledge),某些应快更新(High-frequency knowledge)。早在 20--30 年前就有 Slow Weight / Fast Weight 的概念(Hinton 等人)。此外,不同领域对 Long-tail Knowledge 的需求不同,某些 key application 一定需要在模型/数据层面考虑这个因素。数据天生是长尾分布的,低频部分不动、高频部分持续更新——这种 dynamics 值得深入研究。
本章小结
Continual Learning 是下一代 AI 的关键能力,但面临稳定性、工程复杂度、Serving 成本三重挑战。Context-based 方案更安全但需要长 context 支持;Parameter-based 方案更灵活但风险更大。
2026 年展望
- 薛福昭:期待 Pretraining 出现较大的 Paradigm Shift;个人希望学习更多 RL 等跨领域知识。
- 刘子伟:(1) 多模态迈向更 Unified/Native 的模型,NLP/Vision/Infra 各方向人才都能贡献;(2) 相信会出现一个大的范式——从 Language-Centric 走向 Vision/Multimodal-Centric。
- 曹玉:继续推进 RL 后训练。2025 年很多做后训练的同学被迫在算法和 Infra 之间反复跳跃,是快速成长的过程。希望 DeepSeek 春节不要再卷(笑)。期望做更多接地气的 research,通过产品实践来回答 Continual Learning 等问题。
- 谢天宝:把手头 Multimodal Agent 相关工作做扎实;小范围实验 Self-Improvement 和 Continual Learning。
总结与延伸
本场核心观点速览
- 架构:MoE 是短期工程解,Dense 是长期方向;FLOPs 永远最便宜。
- 多模态:Native Multimodal 长期看好,LLM/VLM 分离是暂时状态。输入端统一无争议,输出端仍有分歧。
- 数据:合成数据面临跨代迁移和 Model Collapse 风险;Mid-training 是 World Model 建模的训练中间态。Vision-Centric 自监督可能破解多模态数据瓶颈。
- RL:闭环控制特性使得问题定义比算法更重要;缺乏 Scaling Law、泛化性不足、environment 复杂度是三大挑战。RL 正走向专业化。
- Agent:决策质量低、Memory 管理是核心瓶颈;Claude Code 是 2025 标杆;直接推向真实世界获取 reward signal 可能是突破口。
- 持续学习:Context-based(Prompt Database + Retrieval)比 Parameter-based 更安全实用;长 context 本质还是 FLOPs。
拓展阅读
- DeepSeek-R1 技术报告——RL 后训练的新范式
- OpenAI “From Compute-Bound to Data-Bound” Blog Post
- Visual Jigsaw / Spatial Intelligence Benchmark 相关工作
- Claude Code 产品设计与 Agentic 架构
- Slow Weight / Fast Weight 经典文献(Hinton et al.)