
静止画像の物体検出と比較して、動画の物体検出(Video Object Detection: VOD)では、物体の外観におけるフレーム間の大きな変動や、一部のフレームでの多様な劣化に特に注意を払う必要があります。原理的には、動画内の特定のフレームでの検出は、他のフレームからの情報によって恩恵を受けることができます。したがって、異なるフレーム間で特徴量を効果的に集約する方法が、この問題の解決に鍵となります。現代の多くの集約手法は二段階検出器向けに設計されており、その二段階性により高い計算コストが発生しています。一方で、一阶段階検出器は静止画像処理において着実な進歩を遂げていますが、VODへの適用については十分な研究が行われてきませんでした。本研究では、上記の課題に対処するために、非常に単純でありながら強力な特徴選択および集約戦略を開発しました。これにより、僅かな計算コストで大幅な精度向上を達成しています。具体的には、一階段階物体検出器の密集予測特性による大量の計算とメモリ消費を削減するために、まず密集予測マップから候補となる特徴量を凝縮します。次に、対象フレームと参照フレームとの関係性を評価し、これを基に集約を行います。本設計の有効性を確認するため、包括的な実験とアブレーションスタディを行いました。その結果、他の最先端VOD手法に対して効果性と効率性において優位性が示されました。特に注目に値するのは、私たちのモデルがImageNet VIDデータセット上で単一の3090 GPUを使用して92.9% AP50を超える30 FPSという新記録性能(New Record Performance)を達成したことです。これは大規模またはリアルタイムアプリケーションにとって魅力的な選択肢となっています。本実装は単純であり、「https://github.com/YuHengsss/YOLOV」からアクセスできます。