7日前

COSA:連結されたサンプルを用いた事前学習済み視覚言語基盤モデル

Sihan Chen, Xingjian He, Handong Li, Xiaojie Jin, Jiashi Feng, Jing Liu
COSA:連結されたサンプルを用いた事前学習済み視覚言語基盤モデル
要約

ビデオ・テキスト学習コーパスの規模および品質が限られているため、多数の視覚言語基盤モデルは事前学習に画像・テキストデータセットを用いており、視覚的意味表現のモデリングに主眼を置く一方で、時間的意味表現および時間的相関関係の捉え方にほとんど注目してこなかった。この問題に対処するため、本研究では、COncatenated SAmple(COSA)という、連結されたサンプルを用いた事前学習を行う視覚言語基盤モデルを提案する。COSAは、画像・テキストコーパスのみを用いて、視覚的コンテンツとイベントレベルの時間的手がかりを統合的にモデリングする。この目的を達成するために、複数の画像・テキストペアを順次連結して事前学習の入力として用いる手法を採用する。この変換により、既存の画像・テキストコーパスを仮想的な長文動画・段落コーパスに変換し、より豊かなシーン変化の表現と明示的なイベント記述の対応関係を可能にする。広範な実験により、COSAが長文・短文動画・テキストタスクおよび画像・テキストタスク(検索、キャプション生成、質問応答など)において、幅広い下流タスクで一貫して性能向上を達成することが示された。特に、COSAはさまざまな競争的ベンチマークにおいて最先端の成果を達成している。コードおよびモデルは、https://github.com/TXH-mercury/COSA にて公開されている。