【读论文】论文对我的启发

一些亮点

对于视频数据集的筛选

来自 SV - Bench
筛选视频:

  1. 时长
  2. 视频美学评分: 确保画面清晰, 视觉体验良好
  3. 光流评分: 剔除静态, 或者过于晃动的视频

一些具有侧重考察的视频类型

来自 RTV-Bench

视频场景包含三大类:

  1. 智能驾驶
  2. 体育赛事
  3. 第一视角(egocentric)视频
    这些场景特别强调:
  • 实时性
  • 状态变化快
  • 需要持续关注视频流

对现有工作的启发

流视频理解

当前模型的普遍弱点

来自 SV-Bench

  • 反事实推理(CR)
  • 时空推测(STS)
  • 这类任务需要复杂的假设与时间轴推理,现有 LVLMs 尚未掌握

来自 Streaming-Bench

  1. 处理长视频能力(一分钟以上); Qwen 的因果推理, 剪辑摘要中表现较好
  2. 时间线索: 对于当下/之后的线索表现较差—-训练集中缺少相关样例
  3. 上下文理解: 被冗余信息影响
  4. 处理多轮回答中引用不是很好
  5. 主动输出: 难以适应这样的问答方式, 改一下问法表现更好

来自 OVO-Bench

  1. 模型对时间定位能力较弱
  2. 存在严重幻觉(训练时加大对于乱答的惩罚)
  3. 推理延迟大, 无法满足实时应用需求
  4. 模型缺乏主动等待的能力

视频模态

来自 Streaming-Bench
本文基准考察了全模态理解, 因此我们微调的模型应该倾向于那些具有处理音频能力的模型
比如 gemini 1.5pro, 在多模态理解中表现较好

模型选择 : 大小与设计

来自 RTV-Bench
模型大小与采样帧率并不能有效提升表现, 有时真实导致性能下降
模型设计需要更关注流视频处理, 长序列建模构建

来自 OVO-Bench
离线模型的能力可以迁移到实时场景

Licensed under CC BY-NC-SA 4.0
最后更新于 Jun 29, 2025 17:24 UTC
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计