QA 类型调研

实时视觉理解

StreamingBench
../../source/QA调研\_实时视频理解.png

  • 有三个关于因果的归类到上下文了
  • 突出时间敏感性和视觉细节
  • 我觉得多选题更能考察能力, 设置迷惑选项
  • 严格检查问题时间戳, 防止问题无法回答
  • 对于答案会变得问题, 不同时间提问, 考察跟踪能力
  • 可以增加冗余信息
  • 在问题中加入时间指示词(现在, 刚才, 几分钟前),能够提升模型对于时间的概念

对象感知

即时目标检测能力

  • 识别物体种类
  • 确保提问对象明确且画面清晰
  • 多选题—避免模型蒙猜

刚才摄像头中哪种车辆经过 ?

动作识别

动态行为理解能力

  • 辨识人/物体执行的动作/行为
  • 设计 QA 时, 选择具有动作区分度的片段
  • 设计选项:用相似动作作为错误选项

这名队员正在做什么动作 ?

属性识别

细节视觉属性感知能力

  • 识别某种属性特征: 颜色, 形状, 衣着
  • 确保当前帧能够展现特征
  • 可以选择不同时间点提问同一个属性, 检查模型的属性跟踪能力

女生穿的裙子现在是什么颜色 ?

文本识别

视觉文本读取能力(其实也算细节视觉吧)

  • 需要模型掌握 OCR 能力
  • 或许需要模型脑补一些被挡住的内容(这个我觉得有点意思, 用 GPT 生图就发现了这一点)
  • 考察模型是否聚焦于"当前"的内容(前后帧可能会有干扰)

主人公手上拿的这本书叫什么

空间关系理解

空间定位, 场景几何理解能力

  • 考察模型是否理解物体间的空间关系, 以及场景的空间布局
  • QA 可以包含多种位置关系, 设置多选

小狗是趴在桌子下还是桌子上 (这种会不会涉及到一些常识问题, 导致模型"作弊")

事件概括

实时情节摘要, 情节理解

  • 对片段进行摘要总结, 提炼情节事件
  • 注意片段长度, 是否会超出模型上下文
  • 考察模型对于隐状态的压缩和传递, 以及相关损耗?

刚才实验的主要过程是什么 ?

数数统计

视觉计数, 工作记忆

  • 数清楚特定片段, 特定对象/动作的次数
  • 需要选择容易数清楚的对象(不能模棱两可/有歧义)
  • 不同时刻同一个问题: 考察模型的实时响应, 防止凭结果去知识答题

当前屏幕上有几辆机动车 (感觉可以和无人机场景紧密结合)

多模态同步理解

../../source/QA调研\_多模态同步理解.png

StreamingBench

  • 一般就是考察视频+音频的同步理解能力, 需要整合视觉+听觉的线索
  • 提问需要把视觉事件+听觉场景对齐
  • 问题设置要明确提示的声音/场景, 避免考察单一能力
  • 这种问题是不是不能选那种带字幕的?

情绪识别

跨模态情感理解能力

  • 根据任务表情+语调判断情绪(不过我咋感觉光看表情就能识别呢?)
  • 可以考察情绪转变, 以及对应原因

A 同学在听到问题后表情严肃, 为什么

场景综合描述

视听协同能力

  • 找包含动作+声音的场景
  • 视觉冲击明显, 有典型的声音
  • 要求模型同步描述某一时刻/时间段的视听信息

刚刚那一幕的画面和声音有什么信息?

声源辨识

多模态对齐, 人物识别

  • 我感觉也挺考察对于同一问题的跟踪能力的
  • 结合声音(音色?), 人物口型确定人物
  • 有个问题: 如何告诉模型哪个人物是谁, 或者他咋回答?
  • 那种一堆人同时张嘴, 或者看不到张嘴只看得到声音的片段比较有难度

“说的对” 这句话是谁说的

语音场景对应

感觉和场景综合描述好像啊

  • 考察模型对于视觉场景描述

当小王说"说的对"时, 其他人在干什么?

因果推理&未来预测

../../source/QA调研\_因果推理 Streaming.png

StreamingBench

../../source/QA调研\_svbench1.png
../../source/QA调研\_svbench2.png

SVBench

  • 考察模型的多步推理链的构建: 模型需要先记忆之前的细节才能答对
  • 一些因果的推导中会涉及一些生活常识

因果推理

因果理解+逻辑推断

  • 某时间的前因后果

为什么小王突然大笑

未来预测

时序推断+预判

  • 其实我觉得跟因果推理差不多, 相当于预测下结果
  • 场景需要有明确的走势/发展趋势, 不能过于开放

这个杯子接下来会如何?(会摔碎)

可能性评估

基于常识推断

  • 某行为在当前情况下的可行性分析
  • 但是我觉得不太好考察, 也相对比较随机
  • 或许可以让模型给出一段分析让后让另一个模型去打分?

雨天路滑的条件下, 那辆车能刹得住车吗?

反事实推理

想象, 逻辑推演

  • 提出假设, 问模型会有什么结果
  • 不能设置的很奇葩, 应该符合常识和剧情, 但是不能在视频中展现出

如果门将没有扑倒球, 会怎么样?

时序定位与顺序理解

  • 考察模型对于视频时间维度的理解

特定片段检测

VideoLLM

  • 从(长)视频中找出满足条件的片段
  • 输出时间索引作为答案

男生在第几分钟出现?

顺序比较

  • 比较时间先后顺序
  • 考察对时间顺序的理解

警察先赶到现场, 还是小偷先溜走?

前瞻主动响应

  • 需要明确的触发条件, 评估标准
  • 条件语句需要明确, 且规定输出格式
  • 连续触发: 可以给模型循环喂片段; 需要让模型学会闭嘴
  • 需要考察模型的响应时间和延迟

条件触发响应

StreamingBench

  • 设置预定义条件, 出现某事件时, 模型输出特定内容
  • 需要明确表述问题: 条件, 行为
  • 在评测时需要考虑: 1. 模型反应速度 2. 反应正确性

C 罗进球时, 请输出"Goal"

多次答案输出

VideoLLM Knows When to Speak
../../source/QA调研\_magqa.png

持续理解和多次交互能力

  • 用户提出持续性问题, 模型需在接下来视频流中多次输出答案
  • 需要学会定位需要跟踪的问题, 并持续跟踪

请实时解释 7 号球员的每一次触球

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计