2ヶ月前

3D-DETNet: 単一ステージのビデオベース車両検出器

Suichan Li
3D-DETNet: 単一ステージのビデオベース車両検出器
要約

動画ベースの車両検出は、過去10年間で大きな注目を集め、多くの深層学習に基づく検出手法がこれに適用可能となっています。しかし、これらの手法は静止画像向けに設計されており、動画の車両検出に直接適用すると常に性能が低下します。本研究では、3D畳み込みネットワーク(3DCovNet)とフォーカルロスを統合した新しい一段階型動画ベースの車両検出器である3D-DETNetを提案します。3D畳み込みネットワークとフォーカルロスの支援により、当手法は動き情報を捉える能力を持ち、静止画像向けに設計された他の一段階型手法よりも動画での車両検出に適しています。複数の動画画像フレームが最初に3D-DETNetに入力され、複数の空間特徴マップが生成されます。その後、サブモデルである3DConvNetがこれらの空間特徴マップを入力として受け取り、時間的な情報を捉えます。この情報は最終的な完全畳み込みモデルに入力され、動画画像フレーム内の車両位置を予測します。当手法をUA-DETAC車両検出データセットで評価した結果、3D-DETNetは最良の性能を示し、他の競合手法と比較して26 fpsという高い検出速度を維持しました。

3D-DETNet: 単一ステージのビデオベース車両検出器 | 最新論文 | HyperAI超神経