2ヶ月前

非編集の教育ビデオから視覚表現のエンドツーエンド学習

Miech, Antoine ; Alayrac, Jean-Baptiste ; Smaira, Lucas ; Laptev, Ivan ; Sivic, Josef ; Zisserman, Andrew
非編集の教育ビデオから視覚表現のエンドツーエンド学習
要約

ビデオの注釈付けは煩雑で、費用が高く、スケーラブルではありません。しかし、多くの強力なビデオモデルは依然として手動で注釈付けられたデータに依存しています。最近、HowTo100Mデータセットの導入により、ナレーテッドビデオ(解説付きビデオ)が手動の監視なしにビデオ表現を学習する可能性を提供しています。本研究では、ナレーテッドビデオに固有の不整合に対処できる新しい学習手法であるMIL-NCEを提案します。この手法を使用することで、手動の注釈なしに強力なビデオ表現をゼロから学習することが可能になります。我々は提案した表現を8つのデータセットにおける4つの下流タスクで評価しました:アクション認識(HMDB-51, UCF-101, Kinetics-700)、テキストからビデオへの検索(YouCook2, MSR-VTT)、アクション局所化(YouTube-8M Segments, CrossTask)、およびアクション分割(COIN)。当手法はこれらのタスクにおいて既存の自己教師ありアプローチすべてといくつかの完全教師ありベースラインを超える性能を示しました。