OVO-Bench - How Far is Your Video-LLMs from Real-World Online Video Understanding?
作者
本文主要坐着来自上海 AILAB, 通讯作者为 JiaQi Wang, 是 AILAB 的多模态方面负责人, 似乎和 Junming 学长也有联系?
概要
- 当前的 bench 没有特别注重考察模型的时序感知, 但这点对于在线视频理解很重要
- 在线视频理解要求能够根据提出问题的时间戳进行:
- 追溯过去
- 感知当下
- 等待未来
OVO-Bench 主要针对这三方面进行考察, 发现当前模型对在线视频的理解能力与人类还有较大差距
引言
- 当前视觉语言模型有明显进步, 在一些 bench 上取得比较高的分数
- 当前的 bench 和现实差距较大, 无法考察像人一样理解(在线)视频的能力
- 当前模型基本只能处理离线视频
- 缺少对于时序感知方面的考察
- 当前有个别的考察在线理解的工作, 但是主要考察的是即时回答, 缺少对于"等待未来",“追溯过去"的能力的考察
- 本文认为在线视频理解必须具备上文所提到的三个能力, 并把这个能力类比成Video Chain-of-Time Thinking Process
- 提出 多点触发查询机制,模拟真实场景下用户会不断提问,模型必须随时准备回答 (这个似乎是我们工作准备强调的一点: 多轮对话能力)
相关工作
视频大语言模型
核心思路
视频-LLMs 是通过将视频转化为帧(frame)或视觉 token,然后结合 LLM 进行多模态理解
技术路线
- 视频特征压缩
- 关键帧选择
视频理解评测基准
- 传统基准: 短视频, 问答简单, 静态场景
- 时间增强基准: 考察因果推理, 时间理解. 离线场景
- 长视频基准: 涵盖更长视频, 但仍是离线, 不支持动态问答
当前 benchmark 基本都是离线任务, 不支持连续输入, 在线决策
(我们的工作应该是主要 focus 在连续输入这里)
在线视频理解
离线与在线
离线: 视频全部可见
在线: 流式输入, 边看边作答
代表工作:
大部分解决的是流式输入+立刻回答
没有关注:
- 是否应该等待更多信息
- 动态调整回答时机
OVO - Bench
在线视频理解模式分类
针对真实在线场景, 本文提出了三个任务模式: 回溯追踪, 实时感知, 前瞻式主动响应
回溯追踪
模型需要追溯视频历史,找到过去发生的事件,才能正确回答当前问题
应用场景:
- 记忆检索(Episodic Memory)
- 动作序列识别(Action Sequence Identification)
- 幻觉检测(Hallucination Detection)
实时视觉感知
模型必须基于“当前时间”前的所有可见内容,立即做出判断
应用场景:
- 空间关系理解(Spatial Understanding)
- 物体识别(Object Recognition)
- 属性识别(Attribute Recognition)
- 动作识别(Action Recognition)
- 光学字符识别(OCR)
- 简单未来预测(Future Prediction)
前瞻式主动响应
模型面对的问题,必须等待未来的视频信息出现后才能作答
应用场景:
- 重复事件计数(Repetition Event Count)
- 顺序步骤识别(Sequential Steps Recognition)
- 线索揭示响应(Clues Reveal Responding)
(我的问题: 既然未来是未知的, 如何知道某个统计问题何时截止? 何时给出答案?)
基准测试构建
视频与标注收集
数据集来源:
- 已有人类标注的视频数据集 (都取自验证集/测试集, 避免泄露)
- 爬取的网络视频(增加多样性)
标注来源
- 复用现有注释
- 半自动生成(用现有的 llm, 然后人工检查)
- 人工重新标注
提示词设计
问题与答案的生成
现有+自动生成+人工
对于线索揭示人物, 现有模型无法构建高质量问题, 必须人工设计
选项设计
- 设置多选题, 防止碰运气
- 增加干扰项
- 打乱选项顺序
离线视频模拟在线任务
- 调整问题提示词, 增加事件暗示, 逼近在线场景(有点像 StreamingBench 中提到的)
- 密集多点触发机制, 每隔一段时间提问(跟 StreamingBench 设计一样)
数据集统计
数据特点:
- 视频长度: 相对较长, 而非短视频(考察长时序理解, 而非碎片式)
- 问题多为多选题, 选项不固定
- 设计七类问题, 保证多样性, 不会集中在单一视频中
实验
模型与评估策略
模型分类
公平评测的输入策略
离线模型对视频长度限制, 因而设计流式模拟输入法:
- 只给模型输入开始到提问时的片段
- 确保可以公平地用于在线评测
(我的问题: 这跟 StreamingBench 有啥区别, 这样一来咋测试时序感知?)
推理延迟
- 测试输入不同帧数时, 模型的推理延迟
- 用于检查模型是否能达到实时响应
- 推理延迟随帧数指数级上升
主要结果
- 离线模型的能力可以迁移到实时场景
- 离线模型在实时感知任务中表现不错
- 虽然输入受限, 但是表现比在线模型好
- 离线模型可以作为流视频处理的潜在方案
- 当前模型缺乏时间优先级感知能力
- 模型对于时间定位能力较弱
- 模型存在严重幻觉问题
- 模型表现极差, 远低于人类.
- 在内容不足时, 倾向于乱答, 不能选择无法回答
(我的想法: 训练时加大乱答的惩罚? 引入强化学习?)
- 模型推理延迟无法满足实时应用需求
- 采样帧数增加, 推理时间指数级增长
- 现有模型响应速度远达不到流视频对话要求
离线视频与在线视频
离线视频
- 在所有任务整理表现更好, 尤其是复杂时序理解任务上
- 可以理解全局视频, 善于利用上下文信息
- 离线视频设计初衷就不是处理流视频, 无法支持一些流视频特性(持续输入输出), 无法做到前瞻式主动响应
在线模型
- 支持流式输入, 支持实时问答
- 感知能力, 推理深度不足
- 易收到干扰信息误导
思考
- 当前在线模型和离线模型存在性能-延迟权衡(trade-off)。
- 未来需要:
- 设计更高效、更强大的流式视频理解架构。
- 优化离线模型的输入输出结构,使其更适配在线场景(如:视频缓存、多轮输入)。
- 重点提升在线模型的时序优先级感知能力与等待决策能力。
主动延迟回答
任务要求
这一类任务要求:
- 模型必须主动延迟作答,不能立刻回答
- 必须等到视频后续的关键信息出现后,才能给出正确答案
评测机制
- 使用 多点触发查询机制(Multiple Triggering Evaluation Pipeline)
- 沿时间轴持续提问,模拟“用户持续关注”的场景。
- 模型必须随时判断:当前信息是否已足够回答?
评测指标:
- 准确率指标(Accuracy-Based)
- 模型的回答是否正确。
- 时机评分指标(Score-Based)
- 鼓励模型尽早正确回答,延迟太久会扣分。
实验结果
- 即便是最强的离线模型(Gemini-1.5 Pro),在 Forward Active Responding 任务上也会出现严重问题
- 离线模型无法理解这种“等待未来”的任务设计,往往会:
- 直接提前给出错误答案。
- 在多轮触发查询中表现接近随机猜测。
- 当前 Video-LLMs 完全缺乏“主动等待”能力
结论与未来工作
结论
- 提出了一个全新的在线视频理解基准测试:OVO-Bench。
- OVO-Bench 首次系统性评估了视频-LLMs 在 三个核心任务模式 下的能力:
- Backward Tracing(回溯追踪)
- Real-Time Visual Perception(实时视觉感知)
- Forward Active Responding(前瞻式主动响应)
通过 OVO-Bench,作者发现:
- 当前 Video-LLMs 在流式视频处理上存在显著性能缺口,尤其是:
- 缺乏时间优先级感知
- 幻觉问题严重
- 无法主动等待
- 推理延迟高,难以满足实时需求
未来工作
- 未来有更多工作能设计更优的 流式推理架构,突破当前离线模型和在线模型之间的性能延迟权衡问题(trade-off)
- 研究者可以基于 OVO-Bench,持续优化视频-LLMs 的 时间感知、决策控制、反应速度、可靠性等综合能力