【读论文】OVO-Bench - How Far is Your Video-LLMs from Real-World Online Video Understanding?

OVO-Bench - How Far is Your Video-LLMs from Real-World Online Video Understanding?

作者

本文主要坐着来自上海 AILAB, 通讯作者为 JiaQi Wang, 是 AILAB 的多模态方面负责人, 似乎和 Junming 学长也有联系?

概要

  • 当前的 bench 没有特别注重考察模型的时序感知, 但这点对于在线视频理解很重要
  • 在线视频理解要求能够根据提出问题的时间戳进行:
    1. 追溯过去
    2. 感知当下
    3. 等待未来

OVO-Bench 主要针对这三方面进行考察, 发现当前模型对在线视频的理解能力与人类还有较大差距

引言

  • 当前视觉语言模型有明显进步, 在一些 bench 上取得比较高的分数
  • 当前的 bench 和现实差距较大, 无法考察像人一样理解(在线)视频的能力
    • 当前模型基本只能处理离线视频
    • 缺少对于时序感知方面的考察
  • 当前有个别的考察在线理解的工作, 但是主要考察的是即时回答, 缺少对于"等待未来",“追溯过去"的能力的考察
  • 本文认为在线视频理解必须具备上文所提到的三个能力, 并把这个能力类比成Video Chain-of-Time Thinking Process
  • 提出 多点触发查询机制,模拟真实场景下用户会不断提问,模型必须随时准备回答 (这个似乎是我们工作准备强调的一点: 多轮对话能力)

相关工作

视频大语言模型

核心思路

视频-LLMs 是通过将视频转化为帧(frame)或视觉 token,然后结合 LLM 进行多模态理解

技术路线

  1. 视频特征压缩
  2. 关键帧选择

视频理解评测基准

  1. 传统基准: 短视频, 问答简单, 静态场景
  2. 时间增强基准: 考察因果推理, 时间理解. 离线场景
  3. 长视频基准: 涵盖更长视频, 但仍是离线, 不支持动态问答
    当前 benchmark 基本都是离线任务, 不支持连续输入, 在线决策
    (我们的工作应该是主要 focus 在连续输入这里)

在线视频理解

离线与在线

离线: 视频全部可见
在线: 流式输入, 边看边作答

代表工作:

大部分解决的是流式输入+立刻回答
没有关注:

  1. 是否应该等待更多信息
  2. 动态调整回答时机

OVO - Bench

在线视频理解模式分类

针对真实在线场景, 本文提出了三个任务模式: 回溯追踪, 实时感知, 前瞻式主动响应
../../source/读论文OVO-Bench  -  How Far is Your Video-LLMs from Real-World Online Video  Understanding? 分类.png

回溯追踪

模型需要追溯视频历史,找到过去发生的事件,才能正确回答当前问题

应用场景

  • 记忆检索(Episodic Memory)
  • 动作序列识别(Action Sequence Identification)
  • 幻觉检测(Hallucination Detection)

实时视觉感知

模型必须基于“当前时间”前的所有可见内容,立即做出判断

应用场景:

  • 空间关系理解(Spatial Understanding)
  • 物体识别(Object Recognition)
  • 属性识别(Attribute Recognition)
  • 动作识别(Action Recognition)
  • 光学字符识别(OCR)
  • 简单未来预测(Future Prediction)

前瞻式主动响应

模型面对的问题,必须等待未来的视频信息出现后才能作答

应用场景:
  • 重复事件计数(Repetition Event Count)
  • 顺序步骤识别(Sequential Steps Recognition)
  • 线索揭示响应(Clues Reveal Responding)

(我的问题: 既然未来是未知的, 如何知道某个统计问题何时截止? 何时给出答案?)

基准测试构建

视频与标注收集

数据集来源:
  1. 已有人类标注的视频数据集 (都取自验证集/测试集, 避免泄露)
  2. 爬取的网络视频(增加多样性)
标注来源
  1. 复用现有注释
  2. 半自动生成(用现有的 llm, 然后人工检查)
  3. 人工重新标注

提示词设计

问题与答案的生成

现有+自动生成+人工
对于线索揭示人物, 现有模型无法构建高质量问题, 必须人工设计

选项设计
  • 设置多选题, 防止碰运气
  • 增加干扰项
  • 打乱选项顺序
离线视频模拟在线任务
  • 调整问题提示词, 增加事件暗示, 逼近在线场景(有点像 StreamingBench 中提到的)
  • 密集多点触发机制, 每隔一段时间提问(跟 StreamingBench 设计一样)

数据集统计

数据特点:

  1. 视频长度: 相对较长, 而非短视频(考察长时序理解, 而非碎片式)
  2. 问题多为多选题, 选项不固定
  3. 设计七类问题, 保证多样性, 不会集中在单一视频中

实验

模型与评估策略

模型分类

../../source/读论文OVO-Bench  -  How Far is Your Video-LLMs from Real-World Online Video  Understanding?模型分类.png

公平评测的输入策略

离线模型对视频长度限制, 因而设计流式模拟输入法:

  • 只给模型输入开始到提问时的片段
  • 确保可以公平地用于在线评测
    (我的问题: 这跟 StreamingBench 有啥区别, 这样一来咋测试时序感知?)

推理延迟

  • 测试输入不同帧数时, 模型的推理延迟
  • 用于检查模型是否能达到实时响应
  • 推理延迟随帧数指数级上升

主要结果

  1. 离线模型的能力可以迁移到实时场景
    • 离线模型在实时感知任务中表现不错
    • 虽然输入受限, 但是表现比在线模型好
  • 离线模型可以作为流视频处理的潜在方案
  1. 当前模型缺乏时间优先级感知能力
    • 模型对于时间定位能力较弱
  2. 模型存在严重幻觉问题
    • 模型表现极差, 远低于人类.
    • 在内容不足时, 倾向于乱答, 不能选择无法回答
      (我的想法: 训练时加大乱答的惩罚? 引入强化学习?)
  3. 模型推理延迟无法满足实时应用需求
    • 采样帧数增加, 推理时间指数级增长
    • 现有模型响应速度远达不到流视频对话要求

离线视频与在线视频

离线视频

  • 在所有任务整理表现更好, 尤其是复杂时序理解任务上
  • 可以理解全局视频, 善于利用上下文信息
  • 离线视频设计初衷就不是处理流视频, 无法支持一些流视频特性(持续输入输出), 无法做到前瞻式主动响应

在线模型

  • 支持流式输入, 支持实时问答
  • 感知能力, 推理深度不足
  • 易收到干扰信息误导

思考

  • 当前在线模型和离线模型存在性能-延迟权衡(trade-off)
  • 未来需要:
    • 设计更高效、更强大的流式视频理解架构。
    • 优化离线模型的输入输出结构,使其更适配在线场景(如:视频缓存、多轮输入)。
    • 重点提升在线模型的时序优先级感知能力与等待决策能力。

主动延迟回答

任务要求

这一类任务要求:

  • 模型必须主动延迟作答,不能立刻回答
  • 必须等到视频后续的关键信息出现后,才能给出正确答案

评测机制

  • 使用 多点触发查询机制(Multiple Triggering Evaluation Pipeline)
    • 沿时间轴持续提问,模拟“用户持续关注”的场景。
    • 模型必须随时判断:当前信息是否已足够回答?
      评测指标:
  1. 准确率指标(Accuracy-Based)
    • 模型的回答是否正确。
  2. 时机评分指标(Score-Based)
    • 鼓励模型尽早正确回答,延迟太久会扣分。

实验结果

  • 即便是最强的离线模型(Gemini-1.5 Pro),在 Forward Active Responding 任务上也会出现严重问题
  • 离线模型无法理解这种“等待未来”的任务设计,往往会:
    • 直接提前给出错误答案。
    • 在多轮触发查询中表现接近随机猜测。
  • 当前 Video-LLMs 完全缺乏“主动等待”能力

结论与未来工作

结论

  • 提出了一个全新的在线视频理解基准测试:OVO-Bench
  • OVO-Bench 首次系统性评估了视频-LLMs 在 三个核心任务模式 下的能力:
    1. Backward Tracing(回溯追踪)
    2. Real-Time Visual Perception(实时视觉感知)
    3. Forward Active Responding(前瞻式主动响应)

通过 OVO-Bench,作者发现:

  • 当前 Video-LLMs 在流式视频处理上存在显著性能缺口,尤其是:
    • 缺乏时间优先级感知
    • 幻觉问题严重
    • 无法主动等待
    • 推理延迟高,难以满足实时需求

未来工作

  • 未来有更多工作能设计更优的 流式推理架构,突破当前离线模型和在线模型之间的性能延迟权衡问题(trade-off)
  • 研究者可以基于 OVO-Bench,持续优化视频-LLMs 的 时间感知、决策控制、反应速度、可靠性等综合能力
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计