7日前

HERO:Video+Languageオムニ表現事前学習のための階層的エンコーダ

Linjie Li, Yen-Chun Chen, Yu Cheng, Zhe Gan, Licheng Yu, Jingjing Liu
HERO:Video+Languageオムニ表現事前学習のための階層的エンコーダ
要約

我々は、大規模な動画+言語統合表現学習を実現するための新規フレームワーク「HERO」を提案する。HEROは階層的な構造により多モーダル入力を符号化する。具体的には、Cross-modal Transformerを用いた多モーダル統合によって動画フレームの局所的文脈を捉え、Temporal Transformerにより動画全体の時系列的文脈を表現する。標準的なマスク付き言語モデリング(MLM)およびマスク付きフレームモデリング(MFM)の他に、2つの新しい事前学習タスクを設計した。その1つは「動画-字幕一致(VSM)」であり、モデルはグローバルおよびローカルな時系列的対応関係を予測する。もう1つは「フレーム順序モデリング(FOM)」で、シャッフルされた動画フレームの正しい順序を予測する。HEROはHowTo100Mと大規模なテレビ動画データセットを統合的に学習させることで、複数人物が関与する複雑な社会的ダイナミクスを深く理解する能力を獲得する。包括的な実験により、HEROはテキストベースの動画・動画瞬間検索、動画質問応答(QA)、動画・言語推論、動画キャプション生成といった異なるドメインにおける多数のベンチマークで、新たな最先端(SOTA)性能を達成した。さらに、多様な動画コンテンツと多モーダル性を考慮して収集された新規の挑戦的ベンチマーク「How2QA」と「How2R」を導入し、動画QAおよび検索タスクの評価基準を強化した。

HERO:Video+Languageオムニ表現事前学習のための階層的エンコーダ | 最新論文 | HyperAI超神経