ストリーム・オムニ:大規模言語-視覚-音声モデルを用いた同時多モーダル相互作用

GPT-4oのような大規模マルチモーダルモデル(LMM)の出現により、テキスト、ビジョン、音声モーダリティを統合してより柔軟なマルチモーダルインタラクションを支援する探索が進んでいます。既存のLMMは通常、モーダリティの表現をシーケンス次元で連結し、大規模言語モデル(LLM)のバックボーンに投入します。シーケンス次元での連結はモーダリティ統合にとって単純ですが、しばしば大規模データに依存してモーダリティアライメントを学習します。本論文では、モーダリティ間の関係をより意図的にモデリングすることを目指し、効率的かつ柔軟なモーダリティアライメントを達成します。この目的のために、私たちはStream-Omniという大規模言語-ビジョン-音声モデルを提案します。Stream-Omniは効率的なモーダリティアライメントを持つことで、さまざまなモーダリティ組み合わせにおける同時インタラクションをサポートできます。Stream-OmniはLLMをバックボーンとして使用し、ビジョンと音声をテキストに基づいて関係性に基づいてアライメントします。テキストと意味的に補完的なビジョンに対しては、Stream-Omniがシーケンス次元での連結を使用してビジョン-テキストアライメントを達成します。また、テキストと意味的に一貫した音声に対しては、CTCベースの層次元マッピングを導入して音声-テキストアライメントを実現します。これにより、Stream-Omniは少ないデータ(特に音声)で効率的なモーダリティアライメントを達成でき、テキスト機能を他のモーダリティに転送することが可能になります。様々なベンチマークでの実験結果から、Stream-Omniが視覚理解、音声インタラクションおよび視覚基盤の音声インタラクションタスクにおいて優れた性能を示すことが確認されました。層次元マッピングのおかげで、Stream-Omniは音声インタラクション中に中間テキスト出力(ASR変換やモデル応答など)も同時に提供できることから、ユーザーに包括的なマルチモーダル体験を提供することができます。