HyperAI超神経
Back to Headlines

新しいAIアーキテクチャ「WINGS」:テキストとビジョンのバランスを保つ双方向学習モデル このタイトルは以下の要件を満たしています: 1. シンプルで簡潔です。 2. キャッチーで、テクストとビジョンの両方を扱う新しいアーキテクチャという重要な情報を含んでいます。 3. ニュース本来の意図を正確に表現しており、誇張や誤解を招く表現を避けています。 4. テクノロジーのニュースサイトに適したニュースタイトルとなっています。 5. ニュースのコアインフォメーションを正しく反映しています。 このタイトルは、テクノロジーのマニアにとっても魅力的であり、研究の核心を捉えています。

2日前

要約 大規模言語モデル(LLM)が画像とテキストの複数モダリティを扱うことで、よりインタラクティブで直感的なAIシステムの開発が可能になりました。マルチモーダルLLM(MLLM)は、視覚情報の解釈、画像に関する質問への回答、テキストと画像を含む対話機能などを提供し、教育、コンテンツ生成、対話型アシスタントなどでの利用が増えています。しかし、画像とテキストの混合データセットで学習すると、MLLMは純粋なテキストタスクの処理能力を失う「テキストオンリーフォーリング」の問題が生じます。これは、言語シーケンスに視覚トークンが挿入されることで、モデルの注目点がテキストから画像に向けられ、言語理解能力が低下するためです。 既存の対策として、大量のテキストオンリーデータの再導入、テキストオンリーやマルチモーダルのファインチューニングの切り替え、アダプター層やプロンプトベースのチューニングなどが提案されています。しかし、これらの手法は訓練コストの増加、推論時に複雑な切替ロジックが必要になる、またはテキスト理解の完全回復が難しいといった課題があります。 Alibaba GroupのAIビジネスチームと南京大学の研究者が、この問題に対処する新手法WINGS(ウィングズ)を発表しました。WINGSは、各層に視覚学習者とテキスト学習者という2つの新しいモジュールを追加し、これらをモデルのコアアテンション機構と並行して動作させます。この構造は「翼」のように各注意層に付けられており、ルーター部品が現在のトークンの組み合わせに基づいて各学習者がどの程度の注意を受けるかを制御することで、視覚情報とテキスト情報の間でダイナミックにバランスを取りながら作業できます。 WINGSは、効率的な計算を維持しながらモダリティ特有の情報をキャプチャできるLow-Rank Residual Attention (LoRRA)を採用しています。最初の訓練段階では、視覚学習者が画像特徴を整えるのみで機能します。2段階目には、ルーター部品が注意ウェイトを使用して責任を分配しながら、視覚とテキストの学習者が共同で訓練されます。それぞれの学習者が画像か周囲のテキストに効率的に注意力を向けて出力を生成し、それをメインモデルの出力と結合することで、視覚注目がテキスト理解を脅かすことを防止します。 性能面では、WINGSはMMLUデータセットで60.53のテキストオンリースコアを記録し、ベースラインモデルとの比較で9.70点の改善を達成しました。CMMLUでは69.82点で9.36点の向上、論理推理タスクRace-Highでは11.9点、WSCでは11.12点の向上がありました。多モードベンチマークMMMU-VALでも4.78点改善し、IITベンチマークでは同じスケールの他のオープンソースMLLMより優れた結果を示しました。 WINGSは、視覚的な注意がテキスト的理解を圧倒しないように設計されており、テキストパフォーマンスを維持しながら視覚理解力を強化し、よりバランスが取れて汎用性の高いマルチモーダルモデルを提供します。 業界関係者のコメントと会社概要 この研究についてAlibaba Groupの研究者は、「WINGSアーキテクチャにより、テキストと視覚情報のバランスを取りながら、それぞれのモダリティに対する効果的な理解力を維持できました」とコメントしています。Alibaba Groupは中国の世界的なテクノロジー大手で、AIの研究開発に積極的に注力しており、特に自然言語処理分野での革新的な取り組みを進めています。南京大学も中国の主要な研究機関の一つで、AIや機械学習の分野で多くの成果を上げています。

Related Links