
要約
時間的アクション提案生成は、現実世界のビデオからアクションやイベントが発生しうる時間的領域を特定することを目指す課題であり、挑戦的かつ有望なタスクです。現在のボトムアップ型提案生成手法は、精密な境界を持つ提案を生成できますが、提案の信頼度スコアを効率的に生成することができません。これらの困難に対処するために、我々は密集した提案の信頼度スコアを評価するための境界マッチング(Boundary-Matching: BM)メカニズムを導入します。このメカニズムでは、提案を開始境界と終了境界のマッチングペアとして定義し、すべての密集したBMペアをBM信頼度マップに結合します。BMメカニズムに基づいて、我々は効果的で効率的かつエンドツーエンドの提案生成手法であるBoundary-Matching Network (BMN) を提案します。BMNは、精密な時間的境界を持つ提案と信頼性のある信頼度スコアを同時に生成します。BMNには2つのブランチがあり、これらは統一されたフレームワーク内で共同で訓練されます。我々は2つの難易度の高いデータセットであるTHUMOS-14およびActivityNet-1.3において実験を行い、BMNが著しい性能向上と優れた効率性および汎化能力を示すことを確認しました。さらに、既存のアクション分類器と組み合わせることで、BMNは最先端の一貫した時間的アクション検出性能を達成することができます。