青稞 AI 嘉年华：LLM/MLLM 专题圆桌

LaTeX 源码

字段	内容
作者/整理	主持：陈嘉乐嘉宾：曹玉、薛福昭、刘子伟、谢天宝
来源	青稞社区
日期	2025

引言与嘉宾介绍

本场是青稞 AI 嘉年华 LLM/MLLM 专题圆桌讨论，由陈嘉乐主持，围绕三大主题展开：预训练（模型架构、数据、多模态统一）、后训练（RL、Reasoning）、以及Agentic & Tool Use。

四位嘉宾

曹玉——某厂多模态大模型后训练 & RL 方向。长期深耕强化学习与后训练，2025 年是其方向“开花结果”的一年。
薛福昭——Google DeepMind Research Scientist，主做 Pretraining Scaling Law、Data-Efficient Scaling、Distillation 与 Model Architecture。来自 Google 内部视角，认为 Pretraining 仍在稳步前进，并未放缓。
刘子伟——新加坡南洋理工大学。关注 Reasoning、Model Architecture（含 Diffusion LM）、原生多模态等三个方向，认为学术和工业都有很多有趣的工作涌现。
谢天宝——香港大学 PhD，主攻 Computer Use 与 Multimodal Agent 工程。偏 Engineering Science，强调工程能力在当下大模型迭代中的核心地位。

2025 年整体印象：AI 一年，人间三年

从 DeepSeek R1 的突破开始，整个行业被按下加速键。开源模型在 Reasoning 领域迅速追上 O1/O3 等闭源模型。文生图、文生视频等应用蓬勃发展。头部模型的能力边界仍在快速扩展，发展速率远未放缓。

本章小结

四位嘉宾分别来自 Google DeepMind（预训练）、学界（NTU/HKU）、工业界（后训练/RL），视角互补。2025 年是 AI 加速发展的一年，无论预训练、后训练还是应用层，均取得了显著进展。

模型架构：MoE vs Dense

MoE 的短期优势与长期隐忧

主持人提出：MoE 和稀疏注意力已成为主流做法，大家对效率的关注是否已超过对效果的关注？

薛福昭：MoE 长期可能被干掉

MoE 本质是用 memory（参数量）换 FLOPs——同时意味着 data efficiency 较差。但长期来看 FLOPs 永远是最便宜的：尽管摩尔定律不再完美，芯片提升速度仍比数据增长快得多。因此：

一切用其他东西换 FLOPs 的方案都是短期 solution
一切用 FLOPs 换其他东西的方案都是长期 solution

模型可能会逐渐回到 Dense，甚至像 Diffusion Model 那样变成 Super-Dense。

曹玉（后训练视角）：完全同意 FLOPs 是唯一确定性变量。但补充一个观点——传统不含合成数据的预训练“可能已经 dead 了”。像 Gemini 这样的模型从预训练阶段就引入大量合成数据，相当于用 FLOPs 换 Data，再用 Data 做 Scaling。如果预训练本身已在做“FLOPs for Data”，那 MoE 作为带宽受限硬件体系下的工程解仍有其价值。

刘子伟：短期和长期存在 Trade-off，个人稍偏 Dense Model。但考虑具体部署场景，MoE 仍有其使用特点。此外，有人在探索下一代计算架构（存储与计算更紧密耦合），这可能在 3--5 年后影响架构选择。

谢天宝：Model Architecture 研究已进入百花齐放状态。MoE 只是工业界的成熟方案，学术界还有更多探索。关键是架构设计应跟随 Learning Paradigm 走——如果未来 Continual Learning 变得重要，架构选择也会随之改变。

OpenAI 的共识：从 Compute-Bound 到 Data-Bound

薛福昭指出，OpenAI 在 GPT-4.5 发布时公开表示，整体已从 Compute-Bound 转向 Data-Bound——这是整个 Community 的共识。

本章小结

MoE 是当前硬件约束下的工程最优解，但长期可能回归 Dense。预训练范式已发生变化：合成数据的大量引入使得“传统预训练”的边界模糊化。架构选择最终取决于硬件演进和学习范式。

原生多模态 vs 桥接式多模态

两种路线的对比

主持人引入讨论：原生多模态（直接将 pixel 变成 token，从早期就图文混合训练）vs 桥接式（先训 LLM，再接 ViT + adapter）。

薛福昭：Native 更 Clean，但 Encoder 有工程优势

桥接式（Encoder-based）的优点：

Encoder 和 Decoder 可分开训练，更容易优化
可以灵活压缩 Token 数量，全局计算效率更好

桥接式的缺点：

Encoder 的训练目标（CLIP? Detection? Reconstruction?）无法保证对下游完全无损
Infra 复杂度高：Image 位置不规则导致 Sequence Parallelism 时 workload 不均衡，需要复杂的 reshuffle/recompute，对 MFU 伤害很大

Native 的优点：pixel token 与 text token 无区别，Infra 层面几乎不需要修改纯 LM 的基础设施。

刘子伟（偏好 Native）：Native 的三大优势：

Data 全局考虑——不用先训 ViT 再接 LM，数据配比更统一
Emerging Ability——早期就有 Interleaved Data，Early Fusion 可能带来涌现能力（Gemini 3 据报道重训了原生版本）
Infra Clean——可直接复用 LM 的 Infra，部署更简单

但目前缺乏一个所有人都能用的开源 Native Multimodal Codebase/Checkpoint。

谢天宝：Native Multimodal 从 2023 年 Gemini 1 就开始讨论。本质上是工程成熟度的问题——工业界手里有想法但工程能力还没完全跟上，还在吃当前方案的红利。最终哪种方案留下来，取决于可维护性和可控性（类比软件工程）。

曹玉（数据视角）：多模态模型的发展跟着数据的可获得性走。原生多模态有更好的数据亲和力——对于后训练来说，base model 基础能力越强越好，native 架构在这方面有天然优势。同时提出一个未解问题：原生多模态的输出端应该包含哪些模态？输入端（text/vision/audio）没争议，但输出端各执一词——人本身并没有 vision native 输出能力。

LLM 与 VLM 为何分开？何时统一？

主持人指出：国内很多厂商仍将 LLM 和 VLM 分开发布，而国外（GPT、Gemini）倾向统一模型。

薛福昭：闭源模型是黑盒，可能内部就是两个模型路由。如果用 Encoder + Decoder 结构部署，最佳做法是分两个芯片——text-only query 不需要 vision encoder 的 memory。合在一起会让问题更复杂，但在 Serving 层面是可解的。

谢天宝：LLM/VLM 分开与 Coding/Math/Tool Use 分开研发的原因一样——分支开发、然后合并是工程上的常见做法。目前处于一个“中间版本”的状态。

曹玉：VLM 和 LLM 分开是暂时的。对于真正有智能的操作体，理解世界的能力一定不是单一模态的。当前分离是因为 Transformer 在 discrete signal 上远比 continuous signal 建模成熟。长期一定会克服工程/组织/技术问题，迈向原生输入多模态。

刘子伟：短期分开有历史因素（Benchmark 偏文字智能、Vision 对排名影响不大）。但从 Physical AI 的角度看——需要长程决策（long-horizon action/decision）和多模态融合，这些场景必须统一。人类是“先有运动能力后有语言”，AI 是反过来，最终也要解那些需要 sensory input 的底层任务。

本章小结

Native vs Encoder-based 各有优劣，短期共存，长期趋向 Native。LLM/VLM 分开是工程/组织的暂时状态，Physical AI 时代必然统一。

合成数据与 Mid-training

Mid-training 的定位

曹玉：Mid-training 是 World Model 建模的训练中间态

Mid-training 的定义一直不严谨。早期它是“达不到 SFT Golden Label 质量的指令数据”。现在的认知更高：

RL Post-training 是对已有知识技能的组合与泛化
这些技能需要在 Mid-training 阶段被模型理解和体会
Mid-training 数据不仅教模型“怎么做事”（Policy Model），也在建模世界的状态转移（World Model）
观察数学等 Mid-training 数据：Loss Mask 与 SFT 不同，模型可以看到中间状态转移

在 Policy Model 和 World Model 功能压缩到同一模型的时代，Mid-training 质量很大程度上决定了 Post-training 质量。

合成数据的两大挑战

薛福昭：合成数据的核心风险

挑战一：跨代迁移——当前模型生成的合成数据，其 gain 能否 transfer 到下一代更大的模型？直觉上就是 challenge，实践中也是。相当于用当前模型的 ceiling 去训练下一代。

挑战二：前置质量 vs Post-training Gain——将 Post-training 模型生成的数据“回灌”到更早的训练阶段，可能会蚕食 Post-training 本身的 gain。因为 Pre \(\to\) Post 本质是 data quality 不断提升的过程，提前引入高质量数据后，Post-training 的边际收益可能下降。

附加风险：大模型记忆力强，合成数据不可避免包含与训练数据相似的分布，导致隐式 repeat \(\to\) overfitting \(\to\) Model Collapse。

Mid-training 是否引入新知识？

谢天宝：业界共识是 Post-training 将 Pre/Mid-training 中已存在的 trajectory 的 pass rate 从 pass@64 拉到 pass@1。如果 Pre/Mid-training 没有见过足够好的数据，Post-training 很难强行学到。同时 Post-training 的 token 窗口有限，不能放太多数据，必须在 Mid-training 补回来。

刘子伟：学界有 NeurIPS Best Paper Runner-up 级别的工作研究这个问题——Pre-training 奠定知识的大分布，Mid-training 把 boundary 往外推。但如果考虑原生多模态模型，Mid-training 可能需要不一样的 signal（不只是 language），以及 learning to learn 的能力。

数据分析的科学化

谢天宝指出：很多厂商和学校对数据的分析能力有限——“数据要不要、放在哪个阶段”主要靠人判断。Active Learning、Self-Improvement 等概念虽然存在，但与工程师手动管理主流模型训练之间仍有很大脱节。数据管理的科学化是一个值得深入研究的方向。

多模态数据瓶颈与 Vision-Centric 路线

曹玉：语言模型得益于互联网海量文本，但不可能有第二个互联网提供同等规模的 text-vision pair。低等动物没有 text 概念但生存了很久——VLM 可能不需要那么多数据就能打底，更多应该通过环境交互（RL 或 reward-free 的 learning from experience）来学习。

刘子伟：可以回看前深度学习时代的视觉自监督工作（何恺明、Alusha 等）获得启发。团队尝试过 Visual Jigsaw（打乱图像/视频让模型恢复顺序），能激发 low-level 和 high-level 特性，包括空间智能——这是当前最强模型（GPT-5、Gemini）也做不好的方向。

薛福昭：Vision-Centric 是长期方向

反对纯仿生路线（人/动物的 vision perception 很大程度来自 physical touching，机器很难获得这种 signal）。但摆脱对文本的依赖是 make sense 的：pixel reconstruction、next frame prediction 等方式可以提供海量 vision token。当 compute 再翻 10--100 倍时，text-image pairs 一定跟不上，直接用 vision 硬搞是可行的。

本章小结

Mid-training 不只是“质量略低的 SFT”，而是 World Model 建模的训练中间态。合成数据面临跨代迁移和 Model Collapse 风险。多模态数据瓶颈可能通过 Vision-Centric 自监督路线突破。

后训练与强化学习

RL 的核心要素

谢天宝（工程视角）列举了 RL 的四大要素：

Environment——题面（问题集）+ Sandbox（执行环境）。不同场景要求差异巨大，有些甚至需要 replicate 整个 Internet。
Foundation Model——Mid-training 质量、Cold Start SFT、模型本身的 RL 调性都很重要。
Training Infra——RL 任务的 context 显著长于 SFT；inference engine、context management、agent memory 设计都需要来回迭代。
RL 算法——算法设计又反过来要求 environment 和 training infra 的配合（如 traceback 支持、efficiency 优化）。

这四者高度耦合，涉及的工程细节极多，很难在学术界完整研究，也很难一次性掌握 know-how。

曹玉：RL 是闭环控制，问题定义比算法更关键

RL 本质上是带反馈信号的闭环控制，信号链路中每个环节都重要。DeepSeek R1 之所以成功，关键在于问题选取与定义的清晰度——这远比具体算法更决定成败。

当前 RL 面临的现实挑战：

环境出 bug 概率极高
问题选取难度大
Reward 获取 sparse
不同任务间的矛盾冲突仍依赖 human-centric 方式解决

RL 正在朝专业化方向发展：做 coding 的人必须成为好的 reward model，做垂类（金融、法律、医疗）也必须懂领域。

RL 的 Scaling Law 缺失

薛福昭：RL 最大的问题之一是缺乏开源级别的 Scaling Law。开源模型发布的是 train 好的 7B/14B/70B，不是 Scaling Curve 上完整可预测下一个 tier 的模型。导致：

训完小模型不知道大模型会发生什么
迭代依赖最终的大 Run（又慢又贵）
RL 本身 loss 上蹿下跳，environment 不稳定（package 更新、异步问题），结论非常 noisy

一旦建立稳定的 Scaling Law + Leaderboard，RL 的迭代效率会大幅提升。

RL 的泛化性问题

曹玉：RL “训什么有什么，但不代表其他方面会提升”。当前 RL 参数更新量仍处于“小扰动”范围（极低 LoRA rank 就能打平 full-parameter），导致单任务能力难以自然泛化到其他领域。但 RL 相比 SFT（offline imitation learning），在理论上应有更好的泛化性——关键是 RL 的 Scaling 还远未达到 promise 的量级。

刘子伟：不追求强泛化到完全 unseen task，能在已知 task 矩阵内有一定内插能力就已经足够 impressive。类比 2018 年 Meta Learning 那一波也没找到 general 的泛化方案。Task 和 Environment 的 Scaling 可能是泛化性的关键。

薛福昭：Generalization 的定义不 clear。如果按 FLOPs 计（每个 task sample 1024 条 trace），RL 对指定 task 的泛化性应该更强（比 SFT 每条 sequence 一个 task）。关键瓶颈是无法获得 trillion 级别的 environments。

刘子伟：去伪存真

过去半年 RL 因 reasoning 大火涌现了大量变种 trick。但最近的工作（如 Just RL）发现，很多 trick 并不有效——最朴素、最干净的方案把超参调好就能达到最优。经历 bubble 后，社区开始区分哪些进展是真的。

本章小结

RL 已从“锦上添花”变为提升模型能力的核心工具，但面临 environment 复杂度、scaling law 缺失、泛化性不足三大挑战。DeepSeek R1 的成功源于问题定义的清晰而非算法创新。RL 正在走向专业化。

Agentic & Tool Use

当前 Agent 的核心瓶颈

谢天宝：过去一年最大突破是从短时任务到多步长时任务。但决策质量仍然很低——观察 trajectory 会发现关键 decision 经常出错（Deep Research 的 report 不反映事实，Coding Agent 引入 bug 后反复 debug）。第二大问题是 Context/Memory 管理：当 multimodal agent 的 token 足够多时，很难在无损信息的前提下存储、管理和利用 memory，这导致 agent 有能力上限。Memory 的表示、管理和利用——本质上还是 2020--2023 年的研究方式（如 symbolic memory management），并未根本性改变。

刘子伟：三个关键点：

Long Sequence——Tool Use 越实用，状态越长；end-to-end 解需要突破 long sequence 的 action space
Self Reflection——每步出错概率随步数累积，强纠错/恢复能力是 real-world 落地的关键
技能迁移——Computer Use 中学到的 skills 有没有可能 transfer 到 Physical World（大部分 robots 不会用工具）。人之所以快速上手电脑图标，是因为图标抽象了现实工具的元素——反过来也可能成立。

曹玉：2025 年最 Impressive 的 Agentic 产品

软件：Claude Code——强长程 agentic 能力，在 digital world 中做到了理想中 agentic AI 应做的事。由此可见 Anthropic 对 Agentic & Tool Use 的理解达到了很高水位。整个产业因此发生变化，大部分 coding 服务商都把 Claude Code 作为核心服务之一。

硬件：豆包手机——可以自动刷抖音极速版赚钱并用微信转账，非常 impressive。但几天后很多功能被限制（不能打开微信、不能跨平台比价），暴露了agentic AI 技术水平与国内厂商开放政策之间的矛盾。

核心观察：在 Digital World 中 scaling 到 trillions of environments 很难。一种可能的 paradigm 是直接把 agent 推向真实世界（如 Claude Code 做软件、豆包手机做硬件），让世界给出 reward signal，而不是在模拟环境中无休止地训练。

薛福昭：对 agentic 不是专家，但相信从 Tool Use \(\to\) Web Agent \(\to\) Gaming（Minecraft \(\to\) 魔兽 \(\to\) GTA 级 3A 游戏）\(\to\) Physical AI 的路径。Gaming 是重要的中间步骤——3A 游戏提供了非常真实的 simulator 环境。

本章小结

Agent 已能处理长时任务但决策质量低、Memory 管理是硬瓶颈。Claude Code 是 2025 年 agentic 的标杆产品。真实世界的 reward signal 可能比模拟环境更有效。Gaming 是通向 Physical AI 的关键中间步骤。

持续学习与 Memory

Continual Learning 的工程挑战

谢天宝：以 Cursor 为例，它做了简单的 Continual Learning（Type 补全），但周期不实时（几小时更新一次），且面临 messy signal、小 batch size 下有效梯度、灾难性遗忘、恶意攻击等问题。核心问题是：过去我们训完模型就 freeze 做 inference，从不在 inference 时更新参数——这是一个巨大的范式差异，也是非常大的研究方向。

曹玉：从逻辑上说 “FLOPs for Continual Learning” 是自然且和谐的——用 FLOPs 换持续的智能提升。但工程挑战巨大：用什么方法去 Learn（LoRA？Sparse Update？）、能否做到 Per User Per Model 的 Serving？希望 2026 年有机会了解哪些模型架构或方式能真正把 Test-Time Training 做出来，而非仅停留在理论推导和小 toy example 上。

Parameter-based vs Context-based 两条路

薛福昭：不搞花里胡哨，直接用 Context

Lifelong Learning 有两条路：

Parameter-based——LoRA / MoE 加 Expert / Embedding Bank。风险：模型越大越不稳定，小 batch size 的 backpropagation 很 risky，长期使用体验可能退化。
Context-based——搞一个 Prompt Database（类似 Memory Retrieval），把历史写进去。唯一缺点是 context 很长——但长 context 本质上还是 FLOPs，回到开头的原则。

建议：不要花里胡哨，直接搞成 context + retrieval。模型的 knowledge 更新就交给周期性的新版本发布（反正现在几个月就出一个新 model）。

刘子伟：大模型可能像一个 OS——包含不同区域，某些参数应慢更新（Low-frequency knowledge），某些应快更新（High-frequency knowledge）。早在 20--30 年前就有 Slow Weight / Fast Weight 的概念（Hinton 等人）。此外，不同领域对 Long-tail Knowledge 的需求不同，某些 key application 一定需要在模型/数据层面考虑这个因素。数据天生是长尾分布的，低频部分不动、高频部分持续更新——这种 dynamics 值得深入研究。

本章小结

Continual Learning 是下一代 AI 的关键能力，但面临稳定性、工程复杂度、Serving 成本三重挑战。Context-based 方案更安全但需要长 context 支持；Parameter-based 方案更灵活但风险更大。

2026 年展望

薛福昭：期待 Pretraining 出现较大的 Paradigm Shift；个人希望学习更多 RL 等跨领域知识。
刘子伟：(1) 多模态迈向更 Unified/Native 的模型，NLP/Vision/Infra 各方向人才都能贡献；(2) 相信会出现一个大的范式——从 Language-Centric 走向 Vision/Multimodal-Centric。
曹玉：继续推进 RL 后训练。2025 年很多做后训练的同学被迫在算法和 Infra 之间反复跳跃，是快速成长的过程。希望 DeepSeek 春节不要再卷（笑）。期望做更多接地气的 research，通过产品实践来回答 Continual Learning 等问题。
谢天宝：把手头 Multimodal Agent 相关工作做扎实；小范围实验 Self-Improvement 和 Continual Learning。

总结与延伸

本场核心观点速览

架构：MoE 是短期工程解，Dense 是长期方向；FLOPs 永远最便宜。
多模态：Native Multimodal 长期看好，LLM/VLM 分离是暂时状态。输入端统一无争议，输出端仍有分歧。
数据：合成数据面临跨代迁移和 Model Collapse 风险；Mid-training 是 World Model 建模的训练中间态。Vision-Centric 自监督可能破解多模态数据瓶颈。
RL：闭环控制特性使得问题定义比算法更重要；缺乏 Scaling Law、泛化性不足、environment 复杂度是三大挑战。RL 正走向专业化。
Agent：决策质量低、Memory 管理是核心瓶颈；Claude Code 是 2025 标杆；直接推向真实世界获取 reward signal 可能是突破口。
持续学习：Context-based（Prompt Database + Retrieval）比 Parameter-based 更安全实用；长 context 本质还是 FLOPs。

拓展阅读

DeepSeek-R1 技术报告——RL 后训练的新范式
OpenAI “From Compute-Bound to Data-Bound” Blog Post
Visual Jigsaw / Spatial Intelligence Benchmark 相关工作
Claude Code 产品设计与 Agentic 架构
Slow Weight / Fast Weight 经典文献（Hinton et al.）