CHAPTER 09 / 12 v4.3 新增

视频分析

与照片流程无缝融合——同一个目录,SuperPicky 慧眼选鸟 自动识别视频文件,YOLO 抽帧检测鸟类,识别鸟种后按物种归类,并生成带时间轴的 SRT 字幕。

支持格式

v4.3 引入视频分析功能,当前支持以下格式:

扩展名 容器 常见来源
.mp4 MPEG-4 相机视频、手机录像、无人机(DJI 等)
.mov QuickTime 相机视频、iPhone、macOS 屏幕录制
.m4v iTunes 视频 Apple 设备导出

视频文件与照片文件可以混放在同一目录中,扫描时自动识别并分别处理,无需提前分拣。 这也是 v4.3 将默认目录布局改为鸟种优先的原因——照片和视频可以共享同一个鸟种子目录。

关于 RAW 视频格式

BRAW(Blackmagic RAW)、R3D(RED)等相机 RAW 视频格式目前不在支持列表中。 如有需要,建议先将视频转码为 MP4 再送入处理。

自动分析流程

选鸟流程启动后,SuperPicky 慧眼选鸟 对目录中的视频文件依次执行以下步骤:

1
自适应抽帧 — 根据视频时长计算采样间隔,默认上限 60 帧/视频。 短视频(时长 ≤ 60 秒)每秒取一帧;长视频则按比例拉大间隔,保证总帧数不超过上限, 处理时间与视频时长解耦。
2
YOLO 鸟类检测 — 对每一帧运行 YOLO11 目标检测,识别画面中是否存在鸟类(COCO 数据集 class 14)。 检测置信度高于阈值(默认 0.5)的帧标记为「有鸟帧」。
3
鸟种识别(可选) — 在「有鸟帧」上进一步调用 OSEA 模型识别鸟种, 默认使用 instant 模式(首帧置信度达标即停止,速度最快)。 识别结果同样支持国家/地区过滤。
4
时间段合并 — 将连续的「有鸟帧」合并为鸟类出现时间段(BirdSegment), 同一鸟种的多段时间自动归并,用于生成 SRT 字幕和决定文件命名。
5
整理归类 — 按识别结果将视频文件移动到对应子目录,同步生成 SRT 字幕文件。
视频处理与照片处理并行

同一次扫描中,照片走评分 + 锐度 + 美学流程,视频走 YOLO + 鸟种识别流程, 两套流程独立运行,最终结果统一汇入同一目录布局,互不干扰。

结果与目录结构

视频分析完成后,文件按鸟种归类并重命名。命名格式为:

{鸟种}_{拍摄日期8位}_{原始文件名}.{扩展名}

归类规则:

检测结果 目标目录 文件名示例
识别到鸟种 原目录/{主鸟种}/ 澳洲蛇鹈_20260101_DJI_0001.mp4
有鸟但识别失败 原目录/其他鸟/ 其他鸟_20260101_DJI_0002.mp4
全程无鸟 原目录/无鸟/ 无鸟_20260101_DJI_0003.mp4

视频目录直接建在源目录之下(不含星级层),与照片的鸟种目录共享同一父级, 两者可自然共存。以下是照片 + 视频混合处理后的典型目录结构:

📁 2026-01-01_澳洲_拍鸟/ 📁 澳洲蛇鹈/ ← 照片和视频共享同一鸟种目录 📁 3星_优选/ 🖼 DSC_0010.ARW 🎬 澳洲蛇鹈_20260101_DJI_0001.mp4 ← 视频直接在鸟种目录 📄 澳洲蛇鹈_20260101_DJI_0001.srt ← SRT 字幕同级放置 📁 其他鸟/ 🎬 其他鸟_20260101_DJI_0002.mp4 📁 无鸟/ 🎬 无鸟_20260101_DJI_0003.mp4
为什么默认用鸟种优先布局

v4.3 将默认目录布局改为鸟种优先,正是为了让视频和照片能落在同一个鸟种文件夹下, 方便用相同工具统一管理。详见第 05 章 5.4

SRT 字幕

每个处理完成的视频旁会自动生成一个同名 .srt 字幕文件, 记录视频中鸟类出现的时间段。SRT 文件可直接用于主流播放器(VLC、IINA、PotPlayer 等)或视频剪辑软件。

字幕内容随可用信息自动调整:

可用信息 字幕示例
仅 YOLO 检测(无鸟种识别) 🐦 检测到鸟类 | 89%
有鸟种识别 🐦 澳洲蛇鹈 (Australasian Darter) | 83%
有鸟种 + 飞行状态 🦅 澳洲蛇鹈 (Australasian Darter) | 飞行中 | 83%
无鸟时间段 [无鸟]

SRT 文件格式示例:

1 00:00:04,000 --> 00:00:17,000 🦅 澳洲蛇鹈 (Australasian Darter) | 飞行中 | 91% 2 00:00:17,000 --> 00:00:31,000 [无鸟] 3 00:00:31,000 --> 00:00:58,000 🐦 澳洲蛇鹈 (Australasian Darter) | 83%

SRT 文件采用 UTF-8 编码,中文鸟种名可正常显示。 时间格式为标准 HH:MM:SS,mmm(毫秒精度)。

在剪辑软件中使用

将视频导入 Final Cut Pro、Premiere Pro 等剪辑软件后,可同时导入对应的 .srt 字幕轨道, 快速定位鸟类出现的时间段,大幅缩短 B-roll 素材筛选时间。

高级设置

视频分析的关键参数可在高级设置 → 视频分析中调整:

参数 默认值 说明
最大抽帧数 60 帧 单视频抽帧总数上限,控制处理时间。 调低可加快分析速度,但可能漏检短暂出镜的鸟类; 调高可提升召回率,适合精细分析重要素材
YOLO 检测阈值 0.5(可调 0.3–0.9) 鸟类目标检测置信度门槛。调低可检测模糊或遮挡的鸟,但误报增加; 调高可减少干扰,但可能漏掉置信度偏低的真实鸟类
鸟种识别模式 instant(极速) instant:首帧达标即停,速度最快,适合素材量大的场景
fast:扫描更多帧取置信度最高结果,准确率更高
full:分析全部抽帧,最准确,耗时最长
启用鸟种识别 开启 关闭后仅做 YOLO 检测(有鸟 / 无鸟),不运行 OSEA 鸟种识别, SRT 字幕将只显示「检测到鸟类」而无鸟种名,适合只需区分有鸟/无鸟的快速分拣场景
视频分析对硬件的要求

YOLO 检测和 OSEA 鸟种识别均在 CPU 上运行(GPU 加速版本后续规划中)。 处理大量长视频时建议适当降低「最大抽帧数」,或在夜间批量运行,避免影响日常使用。