多个视频拼接
视频->帧
对视频进行采样, 1 s->1 frame
采样出的图片全都放到同一文件夹中, 文件夹用视频名称命名, 后缀为秒数
对于快速运动的视频,可能漏掉关键事件,可考虑对某些类别视频使用 0.5s/帧
统计数据
需要统计一下各种短视频的时间长度, 为了满足拼接后视频的长度要求
- 做法建议:
- 用 Python 脚本(如 OpenCV 或ffmpeg-python
)遍历每个视频,获取时长(可按秒/帧数存)。
- 输出一个.csv
文件记录:video_id, duration_in_seconds
这里先不考虑总时间长度
拼接类型
~~到时候看一下数据具体情况, 或许可以分为两种类型~~
~~(可以看数据集有没有分, 或者让大模型根据标注文件进行一定的分类):~~
- ~~视频相关~~
- ~~视频不相关~~
~~对于 1, 需要在标注中体现前面视频的内容; 对于 2 需要让模型学会描述后面视频中不同的内容~~
~~- 分类标准建议:
~~- 可基于语义相似度或视频场景是否延续进行二分类
~~- 两个方案:
~~1. 人工辅助 + GPT分类:读取现有标注文本,让 GPT 判断是否前后内容有逻辑连续性(比如角色相同、任务延续)
~~2. 全自动分类:构造 prompt,如:下面两个视频内容是否连续?如果是,请说明如何连贯。否则,请说明差异。
~~
拼接成什么样子?
我其实也有点疑惑, 这里难道是把其中某几个视频的 frames 合并到一个文件夹中, 还是说仅仅把合并的具体方式(哪几个视频合并)记录到某个文件中, 然后在后面训练时根据这个记录文件, 到对应位置去按顺序读取 frames?
推荐 不实际合并 frames,而是:
仅记录每组拼接的视频 ID 列表(如 JSON 文件)
后续读取时根据列表顺序拼接帧,不需实际文件拷贝。
标注如何处理?
这里我的想法是基于现有的文本标注进行处理, 根据拼接情况, 把待拼接的视频的对应的标注喂给 llm 进行拼接
同时, 注意上面的两种情况
第一种想法是, 根据上面的分类, 对不同的拼接类型用不同的 prompt
第二种想法是, 弄一个 all in one 的 prompt, 让大模型自己识别前后是否有关联, 然后做出对应的标注的整合
~~- 两种方式均可考虑:
~~- Prompt 区分法:
~~- 相关视频拼接:请将以下多个视频内容整合为一个连贯的叙述。注意保留前后逻辑关系。
~~- 不相关拼接:以下多个视频内容无直接关联,请分别进行简洁叙述或以分段方式概括。
- All-in-one Prompt:
- 设计提示语让 GPT 判断视频间关系并自主选择策略,如:
> “以下是若干视频的描述,请根据内容判断是否存在关联,若有则连贯整合,若无则分段归纳。”
数据质量如何检查?
(暂时先不需要考虑)
不太清楚相关工作是抽样调查还是普查, 普查应该流程也差不多, 就是相对麻烦耗时一些.
这里质量检查的重点是:
- 语义相关性: 标注与图片/视频是否一致
|
|
- 触发点时间是否准确: 是否能够准确划分场景切换/视频拼接处的时间戳
|
|