2ヶ月前
MAD: 映画の音声説明からビデオでの言語対応を実現するスケーラブルなデータセット
Soldan, Mattia ; Pardo, Alejandro ; Alcázar, Juan León ; Heilbron, Fabian Caba ; Zhao, Chen ; Giancola, Silvio ; Ghanem, Bernard

要約
最近、ビデオ言語研究への関心が高まり、大規模データセットの開発を推進しています。これらのデータセットは、データ駆動型の機械学習技術を可能にします。一方で、これらのデータセットがビデオ言語対応タスクに適しているかどうかの評価には限られた努力しか払われていません。最近の研究では、これらのデータセットに重大な制約があることが明らかになり、最先端の技術が隠れたデータセットバイアスに過学習している可能性があると指摘されています。本研究では、MAD(Movie Audio Descriptions)という新しいベンチマークを提案します。MADは既存のビデオデータセットにテキスト注釈を追加する従来のパラダイムから離れ、一般的な映画の利用可能な音声説明をクローリングし、それらを合わせることに焦点を当てています。MADには384,000以上の自然言語文が含まれており、1,200時間以上のビデオに根ざしています。また、現在診断されているビデオ言語対応データセットのバイアスが大幅に減少しています。MADの収集戦略により、短い時間的な瞬間(通常数秒間)を最大3時間までの多様な長編ビデオ内に正確に対応させるという新たな且つより困難なバージョンのビデオ言語対応タスクが可能になりました。私たちはMADのデータとベースラインコードを https://github.com/Soldelli/MAD で公開しています。