实时视觉理解
StreamingBench
- 有三个关于因果的归类到上下文了
- 应突出时间敏感性和视觉细节
- 我觉得多选题更能考察能力, 设置迷惑选项
- 严格检查问题时间戳, 防止问题无法回答
- 对于答案会变得问题, 不同时间提问, 考察跟踪能力
- 可以增加冗余信息
- 在问题中加入时间指示词(现在, 刚才, 几分钟前),能够提升模型对于时间的概念
对象感知
即时目标检测能力
- 识别物体种类
- 确保提问对象明确且画面清晰
- 多选题—避免模型蒙猜
刚才摄像头中哪种车辆经过 ?
动作识别
动态行为理解能力
- 辨识人/物体执行的动作/行为
- 设计 QA 时, 选择具有动作区分度的片段
- 设计选项:用相似动作作为错误选项
这名队员正在做什么动作 ?
属性识别
细节视觉属性感知能力
- 识别某种属性特征: 颜色, 形状, 衣着
- 确保当前帧能够展现特征
- 可以选择不同时间点提问同一个属性, 检查模型的属性跟踪能力
女生穿的裙子现在是什么颜色 ?
文本识别
视觉文本读取能力(其实也算细节视觉吧)
- 需要模型掌握 OCR 能力
- 或许需要模型脑补一些被挡住的内容(这个我觉得有点意思, 用 GPT 生图就发现了这一点)
- 考察模型是否聚焦于"当前"的内容(前后帧可能会有干扰)
主人公手上拿的这本书叫什么
空间关系理解
空间定位, 场景几何理解能力
- 考察模型是否理解物体间的空间关系, 以及场景的空间布局
- QA 可以包含多种位置关系, 设置多选
小狗是趴在桌子下还是桌子上 (这种会不会涉及到一些常识问题, 导致模型"作弊")
事件概括
实时情节摘要, 情节理解
- 对片段进行摘要总结, 提炼情节事件
- 注意片段长度, 是否会超出模型上下文
- 考察模型对于隐状态的压缩和传递, 以及相关损耗?
刚才实验的主要过程是什么 ?
数数统计
视觉计数, 工作记忆
- 数清楚特定片段, 特定对象/动作的次数
- 需要选择容易数清楚的对象(不能模棱两可/有歧义)
- 不同时刻同一个问题: 考察模型的实时响应, 防止凭结果去知识答题
当前屏幕上有几辆机动车 (感觉可以和无人机场景紧密结合)
多模态同步理解
StreamingBench
- 一般就是考察视频+音频的同步理解能力, 需要整合视觉+听觉的线索
- 提问需要把视觉事件+听觉场景对齐
- 问题设置要明确提示的声音/场景, 避免考察单一能力
- 这种问题是不是不能选那种带字幕的?
情绪识别
跨模态情感理解能力
- 根据任务表情+语调判断情绪(不过我咋感觉光看表情就能识别呢?)
- 可以考察情绪转变, 以及对应原因
A 同学在听到问题后表情严肃, 为什么
场景综合描述
视听协同能力
- 找包含动作+声音的场景
- 视觉冲击明显, 有典型的声音
- 要求模型同步描述某一时刻/时间段的视听信息
刚刚那一幕的画面和声音有什么信息?
声源辨识
多模态对齐, 人物识别
- 我感觉也挺考察对于同一问题的跟踪能力的
- 结合声音(音色?), 人物口型确定人物
- 有个问题: 如何告诉模型哪个人物是谁, 或者他咋回答?
- 那种一堆人同时张嘴, 或者看不到张嘴只看得到声音的片段比较有难度
“说的对” 这句话是谁说的
语音场景对应
感觉和场景综合描述好像啊
- 考察模型对于视觉场景描述
当小王说"说的对"时, 其他人在干什么?
因果推理&未来预测
StreamingBench
SVBench
- 考察模型的多步推理链的构建: 模型需要先记忆之前的细节才能答对
- 一些因果的推导中会涉及一些生活常识
因果推理
因果理解+逻辑推断
- 某时间的前因后果
为什么小王突然大笑
未来预测
时序推断+预判
- 其实我觉得跟因果推理差不多, 相当于预测下结果
- 场景需要有明确的走势/发展趋势, 不能过于开放
这个杯子接下来会如何?(会摔碎)
可能性评估
基于常识推断
- 某行为在当前情况下的可行性分析
- 但是我觉得不太好考察, 也相对比较随机
- 或许可以让模型给出一段分析让后让另一个模型去打分?
雨天路滑的条件下, 那辆车能刹得住车吗?
反事实推理
想象, 逻辑推演
- 提出假设, 问模型会有什么结果
- 不能设置的很奇葩, 应该符合常识和剧情, 但是不能在视频中展现出
如果门将没有扑倒球, 会怎么样?
时序定位与顺序理解
- 考察模型对于视频时间维度的理解
特定片段检测
VideoLLM
- 从(长)视频中找出满足条件的片段
- 输出时间索引作为答案
男生在第几分钟出现?
顺序比较
- 比较时间先后顺序
- 考察对时间顺序的理解
警察先赶到现场, 还是小偷先溜走?
前瞻主动响应
- 需要明确的触发条件, 评估标准
- 条件语句需要明确, 且规定输出格式
- 连续触发: 可以给模型循环喂片段; 需要让模型学会闭嘴
- 需要考察模型的响应时间和延迟
条件触发响应
StreamingBench
- 设置预定义条件, 出现某事件时, 模型输出特定内容
- 需要明确表述问题: 条件, 行为
- 在评测时需要考虑: 1. 模型反应速度 2. 反应正确性
C 罗进球时, 请输出"Goal"
多次答案输出
VideoLLM Knows When to Speak
持续理解和多次交互能力
- 用户提出持续性问题, 模型需在接下来视频流中多次输出答案
- 需要学会定位需要跟踪的问题, 并持续跟踪
请实时解释 7 号球员的每一次触球