跳转至

VLM 多模态架构:Gemini vs Qwen3-VL vs K2.5

LaTeX 源码 · 备用 PDF

字段 内容
作者/整理 基于公开课程资料整理
来源 五道口纳什
日期 2025

VLM 多模态架构:Gemini vs Qwen3-VL vs K2.5

引言

本期是架构系列的一个特别篇,为后续 K2.5 串讲做铺垫。我们从“原生多模态”(Native Multimodal)的视角,对比三个代表性 VLM:Qwen3-VL、KiMi VL(K2.5 的前身)和 Gemini,回答两个核心问题:

  1. 如何理解“原生多模态”?
  2. 为什么 Qwen3 分了纯语言和 VL 两个系列,而 K2.5 不分?

模态之间的鸿沟

不同模态的维度特性

模态 维度 特性
文本 (Text) 1D Token Sequence
图像 (Image) 2D Spatial
视频 (Video) 3D Spatial + Temporal
音频 (Audio) 1D Temporal
不同模态的数据维度

当前 VLM 的音频短板

Qwen3-VL 和 K2.5 虽然在视觉语言方面做得非常出色,但它们只将视频当作多帧图像序列处理,不处理音频信息。只有 Gemini 等少数模型支持完整的视频+音频输入。

模态之间是“纯粹鸿沟”的——需要对齐(Alignment)、映射(Mapping)到同一个表示空间中。

本章小结

多模态模型的核心挑战是将不同维度、不同性质的数据映射到统一的表示空间。当前主流 VLM 主要解决了文本+图像(+视频帧),音频处理仍是短板。

理解“原生多模态”

非原生 vs. 原生

原生多模态 (Native Multimodal) 的定义

模型并非由独立的单模态模型通过简单的胶水层拼接而成,而是从架构设计之初就将多模态理解融入到模型的核心结构中。早期的语言模型加视觉编码器的方案属于“非原生”。

非原生方案(早期 VLM):

  • 一个预训练好的视觉编码器(如 ViT)
  • 一个预训练好的语言模型(如 LLaMA)
  • 一个简单的投影层(MLP projector)连接两者
  • 各模块可独立训练,拼接后微调

原生方案

  • 视觉和语言从一开始就在同一个模型中联合训练
  • 或者虽然有独立的编码器,但通过深度融合(如交叉注意力)实现紧密耦合

Qwen3 分系列 vs. K2.5 不分

为什么 Qwen3 分了两个系列?

  • Qwen3:纯语言模型系列(Dense + MoE)
  • Qwen3-VL:视觉语言模型系列
  • 两个系列有独立的架构代码、独立的训练流程

而 KiMi 早期有 KiMi VL 的分离版本,但到 K2.5 已经不再区分纯语言和 VLM,实现了真正的“原生多模态”——一个模型同时具备语言和视觉能力。

本章小结

“原生多模态”代表了从“拼接”到“融合”的架构演进。K2.5 不再区分纯语言和 VLM 模型,是这一趋势的体现。

VLM 的一般性架构

三大组件

标准的 VLM 架构包含三个核心组件:

  1. 视觉编码器(Vision Encoder):将图像/视频编码为视觉 token。常用 ViT (Vision Transformer)
  2. 投影/对齐模块(Projector/Adapter):将视觉 token 映射到语言模型的 embedding 空间
  3. 语言模型骨干(LLM Backbone):处理混合的文本 + 视觉 token 序列

动态分辨率处理

现代 VLM 普遍支持动态分辨率输入,不再将所有图像调整到固定大小:

  • 将图像分割成多个 patch
  • 每个 patch 编码为若干视觉 token
  • 更高分辨率 \(\to\) 更多视觉 token \(\to\) 更长的序列

本章小结

VLM = 视觉编码器 + 投影模块 + 语言模型。动态分辨率处理是当前的标准做法,使模型能够处理不同大小的图像。

总结与延伸

  1. 模态间存在天然鸿沟,需要对齐映射到统一空间
  2. “原生多模态”是架构趋势:从拼接到融合
  3. 当前 VLM 主要处理文本+图像+视频帧,音频仍是短板
  4. K2.5 不再区分纯语言和 VLM,实现了原生多模态
  5. 下一期将完整串讲 K2.5 论文

拓展阅读

  • Qwen3-VL 技术报告
  • KiMi K2.5: Visual Agency Intelligence
  • Gemini 技术报告
  • KiMi VL(K2.5 的前身)