HyperAIHyperAI

Command Palette

Search for a command to run...

mPLUG-2:テキスト、画像、動画を横断するモジュール化されたマルチモーダル基礎モデル

概要

近年、言語、視覚、マルチモーダル事前学習の分野において大きな統合が進んできた。本研究では、モジュール化された設計を採用した新たな統一的枠組み「mPLUG-2」を提案する。このアーキテクチャは、モダリティ間の協調を活用しつつ、モダリティの混同(modality entanglement)という課題にも対応できる。従来の主流であるシーケンス・トゥ・シーケンス生成やエンコーダベースのインスタンス識別に依拠する手法とは異なり、mPLUG-2は共通の汎用モジュールを共有することでモダリティ協調を実現し、異なるモダリティ用のモジュールを分離することでモダリティの混同を解消する、マルチモジュール構成ネットワークを導入している。テキスト、画像、動画を含むすべてのモダリティにおいて、理解および生成タスクに応じて柔軟に異なるモジュールを選択可能である。実証的な評価により、mPLUG-2は30以上の下流タスクにおいて最先端(SOTA)または競争力のある性能を達成した。これらのタスクは、画像-テキストおよび動画-テキストの理解・生成を含むマルチモーダルタスク、およびテキストのみ、画像のみ、動画のみの単一モーダルタスクをカバーしている。特に、MSRVTT動画QAおよび動画キャプションタスクにおいて、モデルサイズとデータ規模がはるかに小さいにもかかわらず、トップ1精度48.0、CIDErスコア80.3という新たな最先端性能を達成した。また、視覚言語および動画言語タスクにおいても優れたゼロショット転移性能を示した。コードおよびモデルは、https://github.com/alibaba/AliceMind にて公開される予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています