2ヶ月前

YOLOV: スティル画像オブジェクト検出器をビデオオブジェクト検出に優れたものにする

Yuheng Shi; Naiyan Wang; Xiaojie Guo
YOLOV: スティル画像オブジェクト検出器をビデオオブジェクト検出に優れたものにする
要約

ビデオオブジェクト検出(VID)は、オブジェクトの外観の高い変動性や一部のフレームでの多様な劣化により困難を伴います。一方で、ビデオ内の特定のフレームにおける検出は、静止画に比べて他のフレームから支援を得られるという利点があります。したがって、異なるフレーム間で特徴量を集約する方法は、VID問題において極めて重要です。既存の大半の集約アルゴリズムは、2段階検出器向けにカスタマイズされていますが、これらの検出器は通常2段階の処理によって計算コストが高くなります。本研究では、上記の課題に対処するための単純かつ効果的な戦略を提案します。この戦略は、僅かな追加負荷で精度に大幅な向上をもたらします。具体的には、伝統的な2段階パイプラインとは異なり、1段階検出後に重要な領域を選択することで大量の低品質候補を処理することを避けています。さらに、ターゲットフレームと参照フレームとの関係性を評価し、集約プロセスをガイドしています。我々は広範な実験とアブレーションスタディを行い、設計の有効性を確認しました。その結果、本手法は他の最先端VIDアプローチよりも効果面と効率面で優れていることが示されました。YOLOXベースのモデルは単一の2080Ti GPU上でImageNet VIDデータセットにおいて30 FPS以上で87.5% AP50という有望な性能を達成しており(\emph{例:})、大規模またはリアルタイムアプリケーションへの適用に魅力的です。実装は単純であり、デモコードおよびモデルを \url{https://github.com/YuHengsss/YOLOV} にて公開しています。