【读论文】SVBENCH - A BENCHMARK WITH TEMPORAL MULTI-TURN DIALOGUES FOR STREAMING VIDEO UNDERSTANDING

SVBENCH: A BENCHMARK WITH TEMPORAL MULTI-TURN DIALOGUES FOR STREAMING VIDEO UNDERSTANDING

作者与单位

本文来自自动化所和快手, 是由一作在快手实习期间完成的. 一作似乎也是北邮校友

摘要

研究背景

长时序流式视频理解(streaming video understanding) 这个新兴领域,缺少合适的评测标准
现有的视频理解基准:

  • 大多只关注单轮问题回答(single-instance QA)
  • 无法有效评估模型在完整视频流过程中的时序推理能力

论文贡献

一个评测基准:

  • SVBench:一个流式视频理解评测基准
  • 设计了时间连续的多轮问答链(temporal multi-turn question-answering chains),全面评估 LVLMs 在流式视频理解中的能力
    一个模型:
  • StreamingChat(开源)
  • 在 SVBench 上显著优于现有开源模型,且在其他视觉语言基准上表现也非常不错。

实验结果

  • GPT-4o(封闭源)表现最好
  • 大多数开源 LVLMs 在长时序流式视频理解方面表现较差

引言

研究背景

LVLM快速发展, 但是多数用于离线视频
而现实中多为流式视频, 模型无法看到未来, 只能边看边理解

现有基准局限

  • 现实场景中:
    • 用户通常会在视频流过程中提出多个相关问题,涉及上下文历史。
  • 现有多轮对话基准:
    • 要么基于静态图片序列
    • 要么基于短视频
    • 缺乏 真实流式视频 + 长时序对话 的场景

核心贡献

  1. 设计时序多轮对话
  2. 建立时序联系
  3. 构建数据集

相关工作

LVLM

当前模型有一些不足:

  • 尚未完全掌握流式视频的复杂时序特征
  • 多数模型不能连续理解视频时间流,无法应对复杂真实场景中的信息流

视频理解基准

  • 即使是长视频数据集:
    • 多数忽略了流式视频的时序连续性和动态场景变化
  • 现有基准不能:
    • 测试模型在连续场景中的时序推理能力
    • 测试模型在多轮连续对话中的上下文记忆能力

数据集

数据构建

作者设计了一套半自动标注流程

  1. 数据筛选: 时长, 美学评分, 光流评分
  2. 场景检测与切分: 保证视频节奏合理, 内容丰富
  3. 构建 QA 链: 每个问题必须基于前一个回答, 依靠模型生成+人工修改
  4. QA 质量评估: 用其他模型评估 QA 链质量, 进行筛选
  5. 时序链接 : 基于一些关系建立跨片段时间关系
  6. QA 时序调整: 确保问答链具有高复杂度推理价值

类别设计

  1. 意图推断(Intention Inference)
  2. 可能性评估(Potentiality Assessment)
  3. 反事实推理(Counterfactual Reasoning)
  4. 时空推测(Spatio-Temporal Speculation)
  5. 关系推断(Relationship Inference)
  6. 角色状态与变化(Character State and Transition)
  7. 比较与趋势分析(Comparison and Trend Analysis)
  8. 常识推断(Common Sense Inference)
  9. 事件分析(Event-Centric Analysis)

关键创新

  • 首次构建针对流式视频连续多轮对话的大规模数据集
  • 每个视频的 QA 链不仅覆盖视频片段,还跨片段建立时序关系,逼近真实直播场景
  • 提供完整标注流程,可复现、可扩展、公开可用

统计分析

数据规模

SVBench 是目前已知视频问答数据集中 单视频 QA 数量最多的,远超之前的数据集

视频类别

  • 共 12 个主类别
  • 每个主类别下包含 36 个子类别
    场景多, 全面测试模型的泛化能力

问题技能类别

../../source/读论文SVBENCH - A BENCHMARK WITH TEMPORAL MULTI-TURN DIALOGUES FOR STREAMING VIDEO UNDERSTANDING\_问题技能类别.png

StreamingChat

模型架构

组件 说明
视觉编码器(Vision Encoder) 使用 InternViT,从视频帧中提取图像特征(1 FPS 采样率)
投影层(MLP Projector) 将视觉特征转化为语言模型可以处理的 token
大语言模型(LLM) 使用 InternLM2,支持长上下文输入,处理视觉和文本 token

技术细节:

  • 使用 静态分辨率处理策略
    • 可以支持长视频的连续输入,上下文窗口最大支持 32k tokens
  • 每个视频采样 1 FPS 帧,经过视觉编码后:
    • 送入 MLP 投影,转换成 frame token。
    • 这些 frame token 与语言 token 混合输入到大语言模型中。
  • 使用 LoRA(Low-Rank Adaptation)微调技术
    • 在 LLM 的每一层线性层插入 LoRA,提高训练效率,降低显存消耗。

训练数据

使用 SVBench 中的训练集进行监督微调

创新点

  1. 视觉-语言融合输入:
    • 将视觉 token 与语言 token 混合输入,支持多轮时序对话
  2. 长上下文支持:
    • 静态分辨率策略 + LoRA 微调,让模型可以高效处理几分钟长度的视频
  3. 针对流式视频优化:
    • 训练过程中严格按照视频时间线进行片段输入,模拟真实流式视频对话

实验

实验设置

评测模式

评测类型 重点能力 描述
Dialogue Evaluation(对话评测) 上下文连贯性 模型输入当前片段及其全部历史 QA,上下文线性流动,测试多轮对话能力
Streaming Evaluation(流式评测) 时序跳转推理 在对话评测基础上,加入 80% 概率时序跳跃,测试跨片段推理和时序理解能力

评测指标

  1. 基本指标: 传统文本指标, 语义/文本相似度
  2. 对话评测框架:
指标 含义
Semantic Accuracy (SA) 语义准确性,回答是否准确且符合上下文
Contextual Coherence (CC) 上下文连贯性,回答是否在整个对话链中合理
Logical Consistency (LC) 逻辑一致性,回答是否与历史信息矛盾
Temporal Understanding (TU) 时序理解,是否正确理解事件顺序与因果关系
Informational Completeness (IC) 信息完整性,回答是否包含关键细节
Overall Score (OS) 综合得分,综合以上五项指标

整体结果

  • GPT-4o 是现阶段最佳模型。
  • StreamingChat 在所有 开源模型中表现最优
  • StreamingChat 即使专门针对流式视频进行了训练,在传统图像和视频基准上几乎没有性能损失

视频理解技能分析

  • GPT-4o 在所有技能类别上表现最好
  • StreamingChat:
    • 全面超越所有开源模型
    • 在可能性评估(PA)、角色状态变化(CST)、事件分析(ECA)这三个技能类别甚至超过了 GPT-4o

模型普遍弱点:

  • 反事实推理(CR)
  • 时空推测(STS)
  • 这类任务需要复杂的假设与时间轴推理,现有 LVLMs 尚未掌握

消融实验

  • 多轮 QA(包含上下文)显著提升了模型表现
  • 证明了对话链式输入对于视频理解任务的重要性

结论

提出 SVBench:流式视频理解新基准

  • SVBench 是第一个专门针对 流式视频时序多轮对话 设计的 benchmark
  • 数据集设计:
    • 强调视频片段之间的时间连续性
    • 每个 QA 链之间存在跨片段、时序关联,逼近真实场景

提出 StreamingChat 模型

  • 设计了一个适配流式视频场景的 开源 LVLM:StreamingChat
  • StreamingChat 显著超越了现有开源模型:
    • 在 SVBench 上表现最佳
    • 在其他主流视觉语言任务上也保持了良好的综合能力

关键发现

  • 当前主流 LVLMs 在 传统短视频或静态图像任务上表现良好,但在 长时序流式视频理解任务中明显不足
  • 多轮 QA 场景显著优于传统单轮 QA 评测,表明:
    • 流式视频任务必须设计 上下文强依赖、多轮对话的复杂任务场景,才能真实考察模型能力
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计