【科研】如何造数据

多个视频拼接

视频->帧

对视频进行采样, 1 s->1 frame
采样出的图片全都放到同一文件夹中, 文件夹用视频名称命名, 后缀为秒数

对于快速运动的视频，可能漏掉关键事件，可考虑对某些类别视频使用 0.5s/帧

统计数据

需要统计一下各种短视频的时间长度, 为了满足拼接后视频的长度要求

做法建议：
- 用 Python 脚本（如 OpenCV 或 ffmpeg-python）遍历每个视频，获取时长（可按秒/帧数存）。
- 输出一个 .csv 文件记录：video_id, duration_in_seconds
这里先不考虑总时间长度

拼接类型

~~到时候看一下数据具体情况, 或许可以分为两种类型~~
~~(可以看数据集有没有分, 或者让大模型根据标注文件进行一定的分类):~~

~~视频相关~~
~~视频不相关~~
~~对于 1, 需要在标注中体现前面视频的内容; 对于 2 需要让模型学会描述后面视频中不同的内容~~

~~- 分类标准建议：
~~~~- 可基于语义相似度或视频场景是否延续进行二分类~~
~~- 两个方案：
~~~~1. 人工辅助 + GPT分类：读取现有标注文本，让 GPT 判断是否前后内容有逻辑连续性（比如角色相同、任务延续）~~
~~2. 全自动分类：构造 prompt，如：下面两个视频内容是否连续？如果是，请说明如何连贯。否则，请说明差异。~~

拼接成什么样子?

我其实也有点疑惑, 这里难道是把其中某几个视频的 frames 合并到一个文件夹中, 还是说仅仅把合并的具体方式(哪几个视频合并)记录到某个文件中, 然后在后面训练时根据这个记录文件, 到对应位置去按顺序读取 frames?

推荐 不实际合并 frames，而是：
仅记录每组拼接的视频 ID 列表（如 JSON 文件）
后续读取时根据列表顺序拼接帧，不需实际文件拷贝。

标注如何处理?

这里我的想法是基于现有的文本标注进行处理, 根据拼接情况, 把待拼接的视频的对应的标注喂给 llm 进行拼接
同时, 注意上面的两种情况
第一种想法是, 根据上面的分类, 对不同的拼接类型用不同的 prompt
第二种想法是, 弄一个 all in one 的 prompt, 让大模型自己识别前后是否有关联, 然后做出对应的标注的整合

~~- 两种方式均可考虑：
~~- Prompt 区分法：
~~- 相关视频拼接：请将以下多个视频内容整合为一个连贯的叙述。注意保留前后逻辑关系。
~~~~- 不相关拼接：以下多个视频内容无直接关联，请分别进行简洁叙述或以分段方式概括。~~
- All-in-one Prompt：
- 设计提示语让 GPT 判断视频间关系并自主选择策略，如：
> “以下是若干视频的描述，请根据内容判断是否存在关联，若有则连贯整合，若无则分段归纳。”

数据质量如何检查?

(暂时先不需要考虑)
不太清楚相关工作是抽样调查还是普查, 普查应该流程也差不多, 就是相对麻烦耗时一些.
这里质量检查的重点是:

语义相关性: 标注与图片/视频是否一致

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15


以下是一个合并后的视频描述，以及每一秒的帧级描述。请判断合并描述是否：
1. 准确覆盖了帧中所有重要动作/事件；
2. 是否出现了“帧中不存在”的内容；
3. 是否有明显遗漏；
4. 是否整体连贯一致。

请输出：是否合格（Yes/No），并给出具体理由。

[帧级描述]
1s: A man enters the room.  
2s: He sits at the table and starts reading.  
3s: He drinks water.  

[合并描述]  
A man walks into the room, sits down to read a book, and drinks a glass of water.

触发点时间是否准确: 是否能够准确划分场景切换/视频拼接处的时间戳

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


以下是视频中两个片段的描述，以及模型在第 3 秒输出的内容。请判断模型输出时间是否合理，是否准确对应了事件的发生时间，是否存在提前/延后或错位。

请输出判断：是否时间准确（Yes/No），如果否，请说明错位方向和大致偏移时间。

[片段描述]
2s前内容：A person is cooking noodles on the stove.  
2s后内容：The person pours the noodles into a bowl.  

[模型输出（3s）]  
"Now the person puts the noodles into the bowl."