【读论文】SVBENCH - A BENCHMARK WITH TEMPORAL MULTI-TURN DIALOGUES FOR STREAMING VIDEO UNDERSTANDING

SVBENCH: A BENCHMARK WITH TEMPORAL MULTI-TURN DIALOGUES FOR STREAMING VIDEO UNDERSTANDING

作者与单位

本文来自自动化所和快手, 是由一作在快手实习期间完成的. 一作似乎也是北邮校友

摘要

研究背景

长时序流式视频理解（streaming video understanding） 这个新兴领域，缺少合适的评测标准
现有的视频理解基准：

大多只关注单轮问题回答（single-instance QA）
无法有效评估模型在完整视频流过程中的时序推理能力

论文贡献

一个评测基准:

SVBench：一个流式视频理解评测基准
设计了时间连续的多轮问答链（temporal multi-turn question-answering chains），全面评估 LVLMs 在流式视频理解中的能力
一个模型:
StreamingChat（开源）
在 SVBench 上显著优于现有开源模型，且在其他视觉语言基准上表现也非常不错。

实验结果

GPT-4o（封闭源）表现最好
大多数开源 LVLMs 在长时序流式视频理解方面表现较差

引言

研究背景

LVLM快速发展, 但是多数用于离线视频
而现实中多为流式视频, 模型无法看到未来, 只能边看边理解

现有基准局限

现实场景中：
- 用户通常会在视频流过程中提出多个相关问题，涉及上下文历史。
现有多轮对话基准：
- 要么基于静态图片序列
- 要么基于短视频
- 缺乏 真实流式视频 + 长时序对话 的场景

核心贡献

设计时序多轮对话
建立时序联系
构建数据集

数据集

数据构建

作者设计了一套半自动标注流程

数据筛选: 时长, 美学评分, 光流评分
场景检测与切分: 保证视频节奏合理, 内容丰富
构建 QA 链: 每个问题必须基于前一个回答, 依靠模型生成+人工修改
QA 质量评估: 用其他模型评估 QA 链质量, 进行筛选
时序链接 : 基于一些关系建立跨片段时间关系
QA 时序调整: 确保问答链具有高复杂度推理价值

类别设计

意图推断（Intention Inference）
可能性评估（Potentiality Assessment）
反事实推理（Counterfactual Reasoning）
时空推测（Spatio-Temporal Speculation）
关系推断（Relationship Inference）
角色状态与变化（Character State and Transition）
比较与趋势分析（Comparison and Trend Analysis）
常识推断（Common Sense Inference）
事件分析（Event-Centric Analysis）

关键创新

首次构建针对流式视频连续多轮对话的大规模数据集
每个视频的 QA 链不仅覆盖视频片段，还跨片段建立时序关系，逼近真实直播场景
提供完整标注流程，可复现、可扩展、公开可用

统计分析

数据规模

SVBench 是目前已知视频问答数据集中 单视频 QA 数量最多的，远超之前的数据集

视频类别

共 12 个主类别
每个主类别下包含 36 个子类别
场景多, 全面测试模型的泛化能力

问题技能类别

$../../source/读论文SVBENCH - A BENCHMARK WITH TEMPORAL MULTI-TURN DIALOGUES FOR STREAMING VIDEO UNDERSTANDING\_问题技能类别.png$

StreamingChat

模型架构

组件	说明
视觉编码器（Vision Encoder）	使用 InternViT，从视频帧中提取图像特征（1 FPS 采样率）
投影层（MLP Projector）	将视觉特征转化为语言模型可以处理的 token
大语言模型（LLM）	使用 InternLM2，支持长上下文输入，处理视觉和文本 token

技术细节：

使用 静态分辨率处理策略：
- 可以支持长视频的连续输入，上下文窗口最大支持 32k tokens。
每个视频采样 1 FPS 帧，经过视觉编码后：
- 送入 MLP 投影，转换成 frame token。
- 这些 frame token 与语言 token 混合输入到大语言模型中。
使用 LoRA（Low-Rank Adaptation）微调技术：
- 在 LLM 的每一层线性层插入 LoRA，提高训练效率，降低显存消耗。

训练数据

使用 SVBench 中的训练集进行监督微调

创新点

视觉-语言融合输入：
- 将视觉 token 与语言 token 混合输入，支持多轮时序对话
长上下文支持：
- 静态分辨率策略 + LoRA 微调，让模型可以高效处理几分钟长度的视频
针对流式视频优化：
- 训练过程中严格按照视频时间线进行片段输入，模拟真实流式视频对话

实验

实验设置

评测模式

评测类型	重点能力	描述
Dialogue Evaluation（对话评测）	上下文连贯性	模型输入当前片段及其全部历史 QA，上下文线性流动，测试多轮对话能力
Streaming Evaluation（流式评测）	时序跳转推理	在对话评测基础上，加入 80% 概率时序跳跃，测试跨片段推理和时序理解能力

评测指标

基本指标: 传统文本指标, 语义/文本相似度
对话评测框架:

指标	含义
Semantic Accuracy (SA)	语义准确性，回答是否准确且符合上下文
Contextual Coherence (CC)	上下文连贯性，回答是否在整个对话链中合理
Logical Consistency (LC)	逻辑一致性，回答是否与历史信息矛盾
Temporal Understanding (TU)	时序理解，是否正确理解事件顺序与因果关系
Informational Completeness (IC)	信息完整性，回答是否包含关键细节
Overall Score (OS)	综合得分，综合以上五项指标

整体结果

GPT-4o 是现阶段最佳模型。
StreamingChat 在所有 开源模型中表现最优
StreamingChat 即使专门针对流式视频进行了训练，在传统图像和视频基准上几乎没有性能损失

视频理解技能分析

GPT-4o 在所有技能类别上表现最好
StreamingChat：
- 全面超越所有开源模型
- 在可能性评估（PA）、角色状态变化（CST）、事件分析（ECA）这三个技能类别甚至超过了 GPT-4o

模型普遍弱点：

反事实推理（CR）
时空推测（STS）
这类任务需要复杂的假设与时间轴推理，现有 LVLMs 尚未掌握

消融实验

多轮 QA（包含上下文）显著提升了模型表现
证明了对话链式输入对于视频理解任务的重要性

结论

提出 SVBench：流式视频理解新基准

SVBench 是第一个专门针对 流式视频时序多轮对话 设计的 benchmark
数据集设计：
- 强调视频片段之间的时间连续性
- 每个 QA 链之间存在跨片段、时序关联，逼近真实场景

提出 StreamingChat 模型

设计了一个适配流式视频场景的 开源 LVLM：StreamingChat
StreamingChat 显著超越了现有开源模型：
- 在 SVBench 上表现最佳
- 在其他主流视觉语言任务上也保持了良好的综合能力

关键发现

当前主流 LVLMs 在 传统短视频或静态图像任务上表现良好，但在 长时序流式视频理解任务中明显不足
多轮 QA 场景显著优于传统单轮 QA 评测，表明：
- 流式视频任务必须设计 上下文强依赖、多轮对话的复杂任务场景，才能真实考察模型能力

作者与单位

摘要

研究背景

论文贡献

实验结果

引言

研究背景

现有基准局限

核心贡献

相关工作

LVLM

视频理解基准

数据集

数据构建

类别设计

关键创新

统计分析

数据规模

视频类别

问题技能类别

StreamingChat

模型架构

技术细节：

训练数据

创新点

实验

实验设置

评测模式

评测指标

整体结果

视频理解技能分析

模型普遍弱点：

消融实验

结论

提出 SVBench：流式视频理解新基准

提出 StreamingChat 模型

关键发现