VLM 多模态架构：Gemini vs Qwen3-VL vs K2.5

引言

本期是架构系列的一个特别篇，为后续 K2.5 串讲做铺垫。我们从“原生多模态”（Native Multimodal）的视角，对比三个代表性 VLM：Qwen3-VL、KiMi VL（K2.5 的前身）和 Gemini，回答两个核心问题：

不同模态的数据维度

当前 VLM 的音频短板

Qwen3-VL 和 K2.5 虽然在视觉语言方面做得非常出色，但它们只将视频当作多帧图像序列处理，不处理音频信息。只有 Gemini 等少数模型支持完整的视频+音频输入。

模态之间是“纯粹鸿沟”的——需要对齐（Alignment）、映射（Mapping）到同一个表示空间中。

多模态模型的核心挑战是将不同维度、不同性质的数据映射到统一的表示空间。当前主流 VLM 主要解决了文本+图像（+视频帧），音频处理仍是短板。

原生多模态 (Native Multimodal) 的定义

模型并非由独立的单模态模型通过简单的胶水层拼接而成，而是从架构设计之初就将多模态理解融入到模型的核心结构中。早期的语言模型加视觉编码器的方案属于“非原生”。

非原生方案（早期 VLM）：

原生方案：

为什么 Qwen3 分了两个系列？

而 KiMi 早期有 KiMi VL 的分离版本，但到 K2.5 已经不再区分纯语言和 VLM，实现了真正的“原生多模态”——一个模型同时具备语言和视觉能力。

“原生多模态”代表了从“拼接”到“融合”的架构演进。K2.5 不再区分纯语言和 VLM 模型，是这一趋势的体现。

标准的 VLM 架构包含三个核心组件：

现代 VLM 普遍支持动态分辨率输入，不再将所有图像调整到固定大小：

VLM = 视觉编码器 + 投影模块 + 语言模型。动态分辨率处理是当前的标准做法，使模型能够处理不同大小的图像。