2ヶ月前
ビデオにおける時間的に正確で微細なイベントの検出
Hong, James ; Zhang, Haotian ; Gharbi, Michaël ; Fisher, Matthew ; Fatahalian, Kayvon

要約
我々は、ビデオ内で時間的に正確な、細かいイベントを検出する(イベントが発生する正確な瞬間を検出すること)というタスクを紹介します。正確な検出には、モデルが行動の全体的な時間スケールについてグローバルに推論し、同時に微妙なフレーム間の外観と動きの違いを局所的に識別してこれらの行動中のイベントを特定する必要があります。驚くことに、以前のビデオ理解タスク(例えば行動検出やセグメンテーション)で最良のパフォーマンスを示した解決策は、両方の要件を同時に満たしていないことがわかりました。これに対応して、我々は E2E-Spot というコンパクトでエンドツーエンドのモデルを提案します。このモデルは正確な検出タスクにおいて優れた性能を示し、単一のGPU上で迅速に訓練することができます。我々は E2E-Spot が、ビデオ行動検出、セグメンテーション、およびスポットティングに関する最近の基準モデルから適応されたものよりも大幅に優れていることを示しています。最後に、いくつかの細かいスポーツ行動データセットに対して新しいアノテーションと分割を提供することで、これらのデータセットが将来の正確なスポットティング研究に適したものとなるように貢献しました。