【读论文】OVO-Bench - How Far is Your Video-LLMs from Real-World Online Video Understanding?

OVO-Bench - How Far is Your Video-LLMs from Real-World Online Video Understanding?

作者

本文主要坐着来自上海 AILAB, 通讯作者为 JiaQi Wang, 是 AILAB 的多模态方面负责人, 似乎和 Junming 学长也有联系?

概要

当前的 bench 没有特别注重考察模型的时序感知, 但这点对于在线视频理解很重要
在线视频理解要求能够根据提出问题的时间戳进行:
1. 追溯过去
2. 感知当下
3. 等待未来

OVO-Bench 主要针对这三方面进行考察, 发现当前模型对在线视频的理解能力与人类还有较大差距

引言

当前视觉语言模型有明显进步, 在一些 bench 上取得比较高的分数
当前的 bench 和现实差距较大, 无法考察像人一样理解(在线)视频的能力
- 当前模型基本只能处理离线视频
- 缺少对于时序感知方面的考察
当前有个别的考察在线理解的工作, 但是主要考察的是即时回答, 缺少对于"等待未来",“追溯过去"的能力的考察
本文认为在线视频理解必须具备上文所提到的三个能力, 并把这个能力类比成Video Chain-of-Time Thinking Process
提出 多点触发查询机制，模拟真实场景下用户会不断提问，模型必须随时准备回答 (这个似乎是我们工作准备强调的一点: 多轮对话能力)

OVO - Bench

在线视频理解模式分类

针对真实在线场景, 本文提出了三个任务模式: 回溯追踪, 实时感知, 前瞻式主动响应
../../source/读论文OVO-Bench - How Far is Your Video-LLMs from Real-World Online Video Understanding? 分类.png

回溯追踪

模型需要追溯视频历史，找到过去发生的事件，才能正确回答当前问题

应用场景：

记忆检索（Episodic Memory）
动作序列识别（Action Sequence Identification）
幻觉检测（Hallucination Detection）

实时视觉感知

模型必须基于“当前时间”前的所有可见内容，立即做出判断

应用场景：

空间关系理解（Spatial Understanding）
物体识别（Object Recognition）
属性识别（Attribute Recognition）
动作识别（Action Recognition）
光学字符识别（OCR）
简单未来预测（Future Prediction）

前瞻式主动响应

模型面对的问题，必须等待未来的视频信息出现后才能作答

应用场景：

重复事件计数（Repetition Event Count）
顺序步骤识别（Sequential Steps Recognition）
线索揭示响应（Clues Reveal Responding）

(我的问题: 既然未来是未知的, 如何知道某个统计问题何时截止? 何时给出答案?)

基准测试构建

视频与标注收集

数据集来源:

已有人类标注的视频数据集 (都取自验证集/测试集, 避免泄露)
爬取的网络视频(增加多样性)

标注来源

复用现有注释
半自动生成(用现有的 llm, 然后人工检查)
人工重新标注

提示词设计

问题与答案的生成

现有+自动生成+人工
对于线索揭示人物, 现有模型无法构建高质量问题, 必须人工设计

选项设计

设置多选题, 防止碰运气
增加干扰项
打乱选项顺序

离线视频模拟在线任务

调整问题提示词, 增加事件暗示, 逼近在线场景(有点像 StreamingBench 中提到的)
密集多点触发机制, 每隔一段时间提问(跟 StreamingBench 设计一样)

数据集统计

数据特点:

视频长度: 相对较长, 而非短视频(考察长时序理解, 而非碎片式)
问题多为多选题, 选项不固定
设计七类问题, 保证多样性, 不会集中在单一视频中

实验

模型与评估策略

模型分类

../../source/读论文OVO-Bench - How Far is Your Video-LLMs from Real-World Online Video Understanding?模型分类.png

公平评测的输入策略

离线模型对视频长度限制, 因而设计流式模拟输入法:

只给模型输入开始到提问时的片段
确保可以公平地用于在线评测
(我的问题: 这跟 StreamingBench 有啥区别, 这样一来咋测试时序感知?)

推理延迟

测试输入不同帧数时, 模型的推理延迟
用于检查模型是否能达到实时响应
推理延迟随帧数指数级上升

主要结果

离线模型的能力可以迁移到实时场景
- 离线模型在实时感知任务中表现不错
- 虽然输入受限, 但是表现比在线模型好

离线模型可以作为流视频处理的潜在方案

当前模型缺乏时间优先级感知能力
- 模型对于时间定位能力较弱
模型存在严重幻觉问题
- 模型表现极差, 远低于人类.
- 在内容不足时, 倾向于乱答, 不能选择无法回答
  (我的想法: 训练时加大乱答的惩罚? 引入强化学习?)
模型推理延迟无法满足实时应用需求
- 采样帧数增加, 推理时间指数级增长
- 现有模型响应速度远达不到流视频对话要求

离线视频与在线视频

离线视频

在所有任务整理表现更好, 尤其是复杂时序理解任务上
可以理解全局视频, 善于利用上下文信息
离线视频设计初衷就不是处理流视频, 无法支持一些流视频特性(持续输入输出), 无法做到前瞻式主动响应

在线模型

支持流式输入, 支持实时问答
感知能力, 推理深度不足
易收到干扰信息误导

思考

当前在线模型和离线模型存在性能-延迟权衡（trade-off）。
未来需要：
- 设计更高效、更强大的流式视频理解架构。
- 优化离线模型的输入输出结构，使其更适配在线场景（如：视频缓存、多轮输入）。
- 重点提升在线模型的时序优先级感知能力与等待决策能力。

主动延迟回答

任务要求

这一类任务要求：

模型必须主动延迟作答，不能立刻回答
必须等到视频后续的关键信息出现后，才能给出正确答案

评测机制

使用 多点触发查询机制（Multiple Triggering Evaluation Pipeline）
- 沿时间轴持续提问，模拟“用户持续关注”的场景。
- 模型必须随时判断：当前信息是否已足够回答？
  评测指标:

准确率指标（Accuracy-Based）
- 模型的回答是否正确。
时机评分指标（Score-Based）
- 鼓励模型尽早正确回答，延迟太久会扣分。

实验结果

即便是最强的离线模型（Gemini-1.5 Pro），在 Forward Active Responding 任务上也会出现严重问题
离线模型无法理解这种“等待未来”的任务设计，往往会：
- 直接提前给出错误答案。
- 在多轮触发查询中表现接近随机猜测。
当前 Video-LLMs 完全缺乏“主动等待”能力

结论与未来工作

结论

提出了一个全新的在线视频理解基准测试：OVO-Bench。
OVO-Bench 首次系统性评估了视频-LLMs 在 三个核心任务模式 下的能力：
1. Backward Tracing（回溯追踪）
2. Real-Time Visual Perception（实时视觉感知）
3. Forward Active Responding（前瞻式主动响应）

通过 OVO-Bench，作者发现：

当前 Video-LLMs 在流式视频处理上存在显著性能缺口，尤其是：
- 缺乏时间优先级感知
- 幻觉问题严重
- 无法主动等待
- 推理延迟高，难以满足实时需求

未来工作

未来有更多工作能设计更优的 流式推理架构，突破当前离线模型和在线模型之间的性能延迟权衡问题（trade-off）
研究者可以基于 OVO-Bench，持续优化视频-LLMs 的 时间感知、决策控制、反应速度、可靠性等综合能力