
要約
本稿では、ラベルのないデータから動画とテキストの統合表現を自己教師学習するためのActBERTを提案する。まず、グローバルな行動情報を利用することで、言語テキストと局所的な領域オブジェクトの相互作用を促進する。これにより、ペア化された動画シーケンスとテキスト記述から、グローバルかつ局所的な視覚的ヒントを抽出し、詳細な視覚的・テキスト的関係モデリングを可能にする。次に、グローバルな行動、局所的な領域オブジェクト、および言語的記述の3つの情報源を統合的に符号化するため、ENtangled Transformerブロック(ENT)を導入する。文脈情報からの巧みなヒント抽出を通じて、グローバルと局所の対応関係を発見し、統合された動画・テキスト表現が細粒度のオブジェクトだけでなく、人間の全体的な意図にも敏感になるように制約する。ActBERTの汎化能力は、テキスト-動画クリップ検索、動画キャプション生成、動画質問応答、行動セグメンテーション、行動ステップの局所化といった下流タスクにおいて検証された。実験の結果、ActBERTは既存の最先端手法を顕著に上回り、動画-テキスト表現学習における優位性を示している。