【科研】如何造数据

多个视频拼接

视频->帧

对视频进行采样, 1 s->1 frame
采样出的图片全都放到同一文件夹中, 文件夹用视频名称命名, 后缀为秒数

对于快速运动的视频,可能漏掉关键事件,可考虑对某些类别视频使用 0.5s/帧

统计数据

需要统计一下各种短视频的时间长度, 为了满足拼接后视频的长度要求

  • 做法建议:
    - 用 Python 脚本(如 OpenCV 或 ffmpeg-python)遍历每个视频,获取时长(可按秒/帧数存)。
    - 输出一个 .csv 文件记录:video_id, duration_in_seconds
    这里先不考虑总时间长度

拼接类型

~~到时候看一下数据具体情况, 或许可以分为两种类型~~
~~(可以看数据集有没有分, 或者让大模型根据标注文件进行一定的分类):~~

  1. ~~视频相关~~
  2. ~~视频不相关~~
    ~~对于 1, 需要在标注中体现前面视频的内容; 对于 2 需要让模型学会描述后面视频中不同的内容~~

~~- 分类标准建议:
~~- 可基于语义相似度或视频场景是否延续进行二分类

~~- 两个方案:
~~1. 人工辅助 + GPT分类:读取现有标注文本,让 GPT 判断是否前后内容有逻辑连续性(比如角色相同、任务延续)

~~2. 全自动分类:构造 prompt,如:下面两个视频内容是否连续?如果是,请说明如何连贯。否则,请说明差异。~~

拼接成什么样子?

我其实也有点疑惑, 这里难道是把其中某几个视频的 frames 合并到一个文件夹中, 还是说仅仅把合并的具体方式(哪几个视频合并)记录到某个文件中, 然后在后面训练时根据这个记录文件, 到对应位置去按顺序读取 frames?

推荐 不实际合并 frames,而是:
仅记录每组拼接的视频 ID 列表(如 JSON 文件)
后续读取时根据列表顺序拼接帧,不需实际文件拷贝。

标注如何处理?

这里我的想法是基于现有的文本标注进行处理, 根据拼接情况, 把待拼接的视频的对应的标注喂给 llm 进行拼接
同时, 注意上面的两种情况
第一种想法是, 根据上面的分类, 对不同的拼接类型用不同的 prompt
第二种想法是, 弄一个 all in one 的 prompt, 让大模型自己识别前后是否有关联, 然后做出对应的标注的整合

~~- 两种方式均可考虑:
~~- Prompt 区分法:

~~- 相关视频拼接:请将以下多个视频内容整合为一个连贯的叙述。注意保留前后逻辑关系。
~~- 不相关拼接:以下多个视频内容无直接关联,请分别进行简洁叙述或以分段方式概括。

- All-in-one Prompt:
- 设计提示语让 GPT 判断视频间关系并自主选择策略,如:
> “以下是若干视频的描述,请根据内容判断是否存在关联,若有则连贯整合,若无则分段归纳。”

数据质量如何检查?

(暂时先不需要考虑)
不太清楚相关工作是抽样调查还是普查, 普查应该流程也差不多, 就是相对麻烦耗时一些.
这里质量检查的重点是:

  • 语义相关性: 标注与图片/视频是否一致
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
以下是一个合并后的视频描述,以及每一秒的帧级描述。请判断合并描述是否:
1. 准确覆盖了帧中所有重要动作/事件;
2. 是否出现了“帧中不存在”的内容;
3. 是否有明显遗漏;
4. 是否整体连贯一致。

请输出:是否合格(Yes/No),并给出具体理由。

[帧级描述]
1s: A man enters the room.  
2s: He sits at the table and starts reading.  
3s: He drinks water.  

[合并描述]  
A man walks into the room, sits down to read a book, and drinks a glass of water.
  • 触发点时间是否准确: 是否能够准确划分场景切换/视频拼接处的时间戳
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
以下是视频中两个片段的描述,以及模型在第 3 秒输出的内容。请判断模型输出时间是否合理,是否准确对应了事件的发生时间,是否存在提前/延后或错位。

请输出判断:是否时间准确(Yes/No),如果否,请说明错位方向和大致偏移时间。

[片段描述]
2s前内容:A person is cooking noodles on the stove.  
2s后内容:The person pours the noodles into a bowl.  

[模型输出(3s)]  
"Now the person puts the noodles into the bowl."
Licensed under CC BY-NC-SA 4.0
最后更新于 Aug 02, 2025 17:32 UTC
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计