17日前

空間時系列学習可能プロポーザルによるエンドツーエンド動画オブジェクト検出

Khurram Azeem Hashmi, Didier Stricker, Muhammamd Zeshan Afzal
空間時系列学習可能プロポーザルによるエンドツーエンド動画オブジェクト検出
要約

本論文では、動画オブジェクト検出において時間情報を活用してオブジェクト候補を生成する新規なアプローチを提示する。近年の領域ベースの動画オブジェクト検出器では、特徴の集約が単一フレームのRPN(Region Proposal Network)によって生成された学習済みの候補に大きく依存している。このアプローチは、NMS(非最大値抑制)などの追加モジュールを導入する一方で、低品質なフレーム上では信頼性の低い候補を生成するという課題をもたらす。こうした制約に対処するため、本研究では時間情報を効果的に活用する新しい動画オブジェクト検出パイプライン「SparseVOD」を提案する。特に、Sparse R-CNNのダイナミックヘッドに2つのモジュールを導入している。第一に、時間的RoIアライメント(Temporal RoI Align)に基づく時間特徴抽出モジュールを導入し、RoI候補の特徴を抽出する。第二に、シーケンスレベルの意味的集約に着想を得て、検出前のオブジェクト特徴表現を強化するため、注意機構を用いた意味的候補特徴集約モジュールを導入している。提案するSparseVODは、複雑な後処理手法のオーバーヘッドを顕著に低減し、全体のパイプラインをエンドツーエンドで学習可能にする。広範な実験の結果、本手法は単一フレームのSparse R-CNNに対してmAPで8%~9%の顕著な向上を達成した。さらに、ResNet-50をバックボーンとして使用した場合、ImageNet VIDデータセットにおいて80.3%のmAPという最先端の性能を達成し、特にIoU閾値を高めた設定(IoU > 0.5)において、既存の候補ベースの手法と比較して大幅な優位性を示した。

空間時系列学習可能プロポーザルによるエンドツーエンド動画オブジェクト検出 | 最新論文 | HyperAI超神経