Command Palette
Search for a command to run...
スケールにおけるオムニモーダル事前学習の限界を探る
スケールにおけるオムニモーダル事前学習の限界を探る
Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue
概要
我々は、あらゆるモダリティを理解し、普遍的な表現を学習できる「オムニモダリティインテリジェンス」の構築を提案する。具体的には、事前学習プロセスにおいてモダリティ数、データ量、モデルパラメータ数をスケーラブルに拡張できる、新たな事前学習パラダイム「Multimodal Context(MiCo)」を提案する。MiCoを用いることで、事前学習モデルはマルチモーダル学習において顕著なエメルジェント能力を示し、以下の3つのタスクで評価された。i) 10種類の異なるモダリティにおける単一モダリティ認識ベンチマーク、ii) 検索、質問応答、キャプション生成を含む25種類のクロスモダリティ理解タスク、iii) 18種類のマルチモーダル大規模言語モデルベンチマーク。これらの評価において、我々のモデルは最先端性能において37の新記録を樹立した。本研究がオムニモダリティインテリジェンスの発展に貢献することを期待する。コードとモデルは、https://github.com/invictus717/MiCo にて公開されている。