VLM 多模态架构:Gemini vs Qwen3-VL vs K2.5
| 字段 | 内容 |
|---|---|
| 作者/整理 | 基于公开课程资料整理 |
| 来源 | 五道口纳什 |
| 日期 | 2025 |

引言
本期是架构系列的一个特别篇,为后续 K2.5 串讲做铺垫。我们从“原生多模态”(Native Multimodal)的视角,对比三个代表性 VLM:Qwen3-VL、KiMi VL(K2.5 的前身)和 Gemini,回答两个核心问题:
- 如何理解“原生多模态”?
- 为什么 Qwen3 分了纯语言和 VL 两个系列,而 K2.5 不分?
模态之间的鸿沟
不同模态的维度特性
| 模态 | 维度 | 特性 |
|---|---|---|
| 文本 (Text) | 1D | Token Sequence |
| 图像 (Image) | 2D | Spatial |
| 视频 (Video) | 3D | Spatial + Temporal |
| 音频 (Audio) | 1D | Temporal |
当前 VLM 的音频短板
Qwen3-VL 和 K2.5 虽然在视觉语言方面做得非常出色,但它们只将视频当作多帧图像序列处理,不处理音频信息。只有 Gemini 等少数模型支持完整的视频+音频输入。
模态之间是“纯粹鸿沟”的——需要对齐(Alignment)、映射(Mapping)到同一个表示空间中。
本章小结
多模态模型的核心挑战是将不同维度、不同性质的数据映射到统一的表示空间。当前主流 VLM 主要解决了文本+图像(+视频帧),音频处理仍是短板。
理解“原生多模态”
非原生 vs. 原生
原生多模态 (Native Multimodal) 的定义
模型并非由独立的单模态模型通过简单的胶水层拼接而成,而是从架构设计之初就将多模态理解融入到模型的核心结构中。早期的语言模型加视觉编码器的方案属于“非原生”。
非原生方案(早期 VLM):
- 一个预训练好的视觉编码器(如 ViT)
- 一个预训练好的语言模型(如 LLaMA)
- 一个简单的投影层(MLP projector)连接两者
- 各模块可独立训练,拼接后微调
原生方案:
- 视觉和语言从一开始就在同一个模型中联合训练
- 或者虽然有独立的编码器,但通过深度融合(如交叉注意力)实现紧密耦合
Qwen3 分系列 vs. K2.5 不分
为什么 Qwen3 分了两个系列?
- Qwen3:纯语言模型系列(Dense + MoE)
- Qwen3-VL:视觉语言模型系列
- 两个系列有独立的架构代码、独立的训练流程
而 KiMi 早期有 KiMi VL 的分离版本,但到 K2.5 已经不再区分纯语言和 VLM,实现了真正的“原生多模态”——一个模型同时具备语言和视觉能力。
本章小结
“原生多模态”代表了从“拼接”到“融合”的架构演进。K2.5 不再区分纯语言和 VLM 模型,是这一趋势的体现。
VLM 的一般性架构
三大组件
标准的 VLM 架构包含三个核心组件:
- 视觉编码器(Vision Encoder):将图像/视频编码为视觉 token。常用 ViT (Vision Transformer)
- 投影/对齐模块(Projector/Adapter):将视觉 token 映射到语言模型的 embedding 空间
- 语言模型骨干(LLM Backbone):处理混合的文本 + 视觉 token 序列
动态分辨率处理
现代 VLM 普遍支持动态分辨率输入,不再将所有图像调整到固定大小:
- 将图像分割成多个 patch
- 每个 patch 编码为若干视觉 token
- 更高分辨率 \(\to\) 更多视觉 token \(\to\) 更长的序列
本章小结
VLM = 视觉编码器 + 投影模块 + 语言模型。动态分辨率处理是当前的标准做法,使模型能够处理不同大小的图像。
总结与延伸
- 模态间存在天然鸿沟,需要对齐映射到统一空间
- “原生多模态”是架构趋势:从拼接到融合
- 当前 VLM 主要处理文本+图像+视频帧,音频仍是短板
- K2.5 不再区分纯语言和 VLM,实现了原生多模态
- 下一期将完整串讲 K2.5 论文
拓展阅读
- Qwen3-VL 技术报告
- KiMi K2.5: Visual Agency Intelligence
- Gemini 技术报告
- KiMi VL(K2.5 的前身)