ONE-PEACE:無限のモダリティへ向けて一つの汎用表現モデルの探求

本研究では、無限のモダリティに対応可能な汎用表現モデルを構築するスケーラブルな手法を提案する。我々は、40億パラメータを有する拡張性の高いモデル「ONE-PEACE」を公開する。このモデルは、視覚、音声、言語の各モダリティ間の表現をシームレスに統合・アライメント可能である。ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己注意(self-attention)層、およびモダリティ固有の前向きフィードフォワードネットワーク(FFN)から構成されている。この設計により、新たなモダリティを追加する際にはアダプタとFFNを追加するだけで容易に拡張可能であり、自己注意層を用いたマルチモーダル融合も実現できる。ONE-PEACEの事前学習には、モダリティに依存しない2つの事前学習タスクを構築した。すなわち、クロスモーダルアライメント対比学習とイントラモーダルノイズ除去対比学習であり、これらにより異なるモダリティの意味空間を統一的に整えつつ、各モダリティ内部の微細な特徴も同時に捉えることが可能となる。スケーラビリティに配慮したアーキテクチャと事前学習タスクを採用したことで、ONE-PEACEは無限のモダリティへと拡張可能な可能性を有している。視覚や言語の事前学習済みモデルを初期化に用いずに、画像分類(ImageNet)、セマンティックセグメンテーション(ADE20K)、音声-テキスト検索(AudioCaps、Clotho)、音声分類(ESC-50、FSD50K、VGGSound)、音声質問応答(AVQA)、画像-テキスト検索(MSCOCO、Flickr30K)、視覚的グランドリング(RefCOCO/+/g)など、幅広い単モーダルおよびマルチモーダルタスクにおいて、最先端の性能を達成している。コードはGitHubにて公開されている:https://github.com/OFA-Sys/ONE-PEACE。