学習された視覚言語表現を用いた未編集ビデオの多様な理解

近年、ビデオと言語の統合学習に注目が集まっています。しかし、既存の研究は主に単一または複数のトリミングされたビデオクリップ(イベント)に焦点を当てており、推論時に人間によるイベント境界のアノテーションが必要となっています。この制約から脱却するため、我々はトリミングされていないビデオ向けの接地型視覚-言語学習フレームワークを提案します。このフレームワークは、情報量豊富なイベントを自動的に検出し、複数文の説明と対応するイベントセグメント間の整合性を効果的に掘り下げます。粗いレベルでのビデオ-言語整合性ではなく、我々は2つの双方向的な前処理タスクを提示し、細かい粒度のセグメントレベルでの整合性を促進します。すなわち、テキスト-イベント接地(Text-to-Event Grounding: TEG)とイベント-テキスト生成(Event-to-Text Generation: ETG)です。TEGは、文のセットが与えられた場合に可能なイベント提案を適応的に接地することを学びます。これは共同モーダル距離を結合意味空間で推定することで行われます。一方、ETGはイベント提案が与えられたときにマッチしたテキストを再構築(生成)することを目指し、イベント表現が意味のある意味情報を保持することを促進します。イベントセットとテキストセット間での正確なラベル割り当てを促進するために、我々は新しい意味認識コストを提案します。これにより、境界アノテーションの曖昧さによって引き起こされる部分最適なマッチング結果が軽減されます。我々のフレームワークは視覚的に接地された言語理解や生成に関するタスクへの拡張が容易です。ActivityNet Captions, YouCook2, YouMakeupにおいて最先端の高密度ビデオキャプショニング性能を達成しており、その他のいくつかの言語生成および理解タスクでも競争力のある性能を示しています。また、PIC第4回チャレンジにおけるMTVGおよびMDVCタスクで1位となりました。当方のコードは公開されており、https://github.com/zjr2000/GVL からアクセスできます。