6ヶ月前

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Chenliang Li Haiyang Xu Junfeng Tian Wei Wang Ming Yan Bin Bi Jiabo Ye Hehong Chen Guohai Xu Zheng Cao

概要

大規模な事前学習済み基盤モデル（foundation models）は、人工知能（AI）システム構築の新たなパラダイムとして注目されており、さまざまな下流タスクに迅速に適応可能な特徴を持つ。本論文では、異種モーダルな理解および生成を両立する新しい視覚言語基盤モデル「mPLUG」を提案する。既存の多くの事前学習モデルは、異種モーダル統合における長い視覚シーケンスによって引き起こされる計算効率の低さや情報の非対称性といった問題を抱えている。これらの課題に対処するため、mPLUGは新たな異種モーダルスキップ接続（skip-connections）を導入した効果的かつ効率的な視覚言語アーキテクチャを採用している。このスキップ接続は、視覚側における高コストな完全自己注意（full self-attention）処理を回避するため、層間のショートカットを構築することで、特定の層数をスキップする仕組みを実現している。mPLUGは、大規模な画像-テキストペアデータセットを用いて、識別的（discriminative）および生成的（generative）な目的関数を統合的に最適化することで、エンド・ツー・エンドで事前学習が行われている。このモデルは、画像キャプション生成、画像-テキスト検索、視覚的接地（visual grounding）、視覚質問応答（visual question answering）など、幅広い視覚言語下流タスクにおいて、最先端の性能を達成している。さらに、mPLUGは複数の動画-言語タスクに対して直接ゼロショット（zero-shot）転移が可能であり、優れた汎化能力を示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Chenliang Li Haiyang Xu Junfeng Tian Wei Wang Ming Yan Bin Bi Jiabo Ye Hehong Chen Guohai Xu Zheng Cao

概要

大規模な事前学習済み基盤モデル（foundation models）は、人工知能（AI）システム構築の新たなパラダイムとして注目されており、さまざまな下流タスクに迅速に適応可能な特徴を持つ。本論文では、異種モーダルな理解および生成を両立する新しい視覚言語基盤モデル「mPLUG」を提案する。既存の多くの事前学習モデルは、異種モーダル統合における長い視覚シーケンスによって引き起こされる計算効率の低さや情報の非対称性といった問題を抱えている。これらの課題に対処するため、mPLUGは新たな異種モーダルスキップ接続（skip-connections）を導入した効果的かつ効率的な視覚言語アーキテクチャを採用している。このスキップ接続は、視覚側における高コストな完全自己注意（full self-attention）処理を回避するため、層間のショートカットを構築することで、特定の層数をスキップする仕組みを実現している。mPLUGは、大規模な画像-テキストペアデータセットを用いて、識別的（discriminative）および生成的（generative）な目的関数を統合的に最適化することで、エンド・ツー・エンドで事前学習が行われている。このモデルは、画像キャプション生成、画像-テキスト検索、視覚的接地（visual grounding）、視覚質問応答（visual question answering）など、幅広い視覚言語下流タスクにおいて、最先端の性能を達成している。さらに、mPLUGは複数の動画-言語タスクに対して直接ゼロショット（zero-shot）転移が可能であり、優れた汎化能力を示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

mPLUG：クロスモーダルスキップ接続を用いた効果的で効率的な視覚言語学習 | 記事 | HyperAI超神経