一些亮点
对于视频数据集的筛选
来自 SV - Bench
筛选视频:
- 时长
- 视频美学评分: 确保画面清晰, 视觉体验良好
- 光流评分: 剔除静态, 或者过于晃动的视频
一些具有侧重考察的视频类型
来自 RTV-Bench
视频场景包含三大类:
- 智能驾驶
- 体育赛事
- 第一视角(egocentric)视频
这些场景特别强调:
- 实时性
- 状态变化快
- 需要持续关注视频流
对现有工作的启发
流视频理解
当前模型的普遍弱点
来自 SV-Bench
- 反事实推理(CR)
- 时空推测(STS)
- 这类任务需要复杂的假设与时间轴推理,现有 LVLMs 尚未掌握
来自 Streaming-Bench
- 处理长视频能力(一分钟以上); Qwen 的因果推理, 剪辑摘要中表现较好
- 时间线索: 对于当下/之后的线索表现较差—-训练集中缺少相关样例
- 上下文理解: 被冗余信息影响
- 处理多轮回答中引用不是很好
- 主动输出: 难以适应这样的问答方式, 改一下问法表现更好
来自 OVO-Bench
- 模型对时间定位能力较弱
- 存在严重幻觉(训练时加大对于乱答的惩罚)
- 推理延迟大, 无法满足实时应用需求
- 模型缺乏主动等待的能力
视频模态
来自 Streaming-Bench
本文基准考察了全模态理解, 因此我们微调的模型应该倾向于那些具有处理音频能力的模型
比如 gemini 1.5pro, 在多模态理解中表现较好
模型选择 : 大小与设计
来自 RTV-Bench
模型大小与采样帧率并不能有效提升表现, 有时真实导致性能下降
模型设计需要更关注流视频处理, 长序列建模构建
来自 OVO-Bench
离线模型的能力可以迁移到实时场景