中国科学院が提案する「Stream-Omni」:リアルタイムAIのためのテキスト中心の多モーダルアライメントモデル
中国科学院の研究者たちは、多モーダル大言語モデル(LMM)であるStream-Omniを開発し、リアルタイムのAIによる音声と視覚の交互作用の課題を解決しました。現在のオムニモーダルLMMは、テキスト、画像、音声の各モーダル間での統合に苦労しています。これは、モーダルごとのエンコーダが異なる表現形式を持ち、単純な結合ではなく、高度なマルチモーダル理解が必要なためです。 現状のLMMの課題 大規模な多モーダルモデル(LMM)は、テキスト、視覚、音声などのモーダル間で優れた能力を示しており、さまざまなアプリケーションへの可能性を広げています。ただし、これらのモデルは大規模なデータに依存しており、特に公開されている3モーダル(tri-modal)データセットが限られているため、十分な柔軟性を持って中間的なテキスト結果を生成することが難しいという課題があります。 現存のLMMの分类 現行のLMMは、ビジュアル志向、スピーチ志向、オムニモーダルの3つのカテゴリに分類されます。ビジュアル志向のLMM(LLaVAなど)は、ビジョンエンコーダーを用いて視覚特徴を抽出し、テキスト入力と組み合わせてテキストを生成します。スピーチ志向のLMM(Mini-Omni、LLaMA-Omniなど)は、 Continuous方法やDiscrete Speech Unitsを使用して、音声を直接的なテキスト処理に変換します。オムニモーダルLMM(VITA-1.5、MiniCPM2.6-o、Qwen2.5-Omniなど)は、様々なエンコーダから表現を抽出し、複数のモーダル間での理解を促進するために連結します。 Stream-Omniの概要 Stream-Omniは、中国科学院の研究者らによって開発されたテキストを中心に据えた新しいアプローチで、ビジュアルとスピーチモーダルをテキストに基づいて意味的な関連性で統合します。具体的には、視覚とテキストの統合にはシーケンス次元結合を使用し、音声とテキストの統合にはCTCベースの層次元マッピングを導入することで、既存の結合ベースの方法の制約を克服します。 アーキテクチャの特徴 Stream-Omniのアーキテクチャは、大言語モデル(LLM)の骨格を中心に据え、進行性のモーダル統合戦略を採用しています。視覚とテキストの統合にはビジョンエンコーダと投影層を使用し、音声とテキストの統合にはLLMの下部と上部に特殊な音声層を配置することで双方向のマッピングを可能にします。また、自動パイプラインを通じて学習コープスを構築し、LLaVAデータセット、LibriSpeech、WenetSpeech、InstructOmniデータセットなどを活用しています。 各ドメインでの性能評価 視覚理解タスクにおいて、Stream-Omniは最先端のビジョン志向LMMと同等もしくは優れたパフォーマンスを示し、VITA-1.5よりも優れた視覚理解能力を維持し、モダリティ干渉を低減しています。音声交互作用では、23,000時間の音声データという比較的小規模なデータセットを使用しながら、SpeechGPT、Moshi、GLM-4-Voiceなどの離散的な音声単位ベースのモデルと同等の知識を提供します。SpokenVisITベンチマークでのビジョン基盤の音声交互作用評価では、実世界における視覚理解能力でVITA-1.5を上回っています。さらに、LibriSpeechベンチマークでの音声認識(ASR)パフォーマンスも、精度と推論時間の両面で優れています。 結論:多モーダル統合の新パラダイム 結論として、Stream-Omniは、大規模な3モーダル訓練データを必要とせずに、効率的なモーダル統合を達成する方法を提案しています。シーケンス次元結合と層次元マッピングによる意味的な関連性に基づく統合戦略は、従来の結合手法の限界を突破し、次世代のオムニモーダルLMMの基盤となる可能性を示しています。 この研究成果は、多モーダルAIシステムの進化に新たな道筋を提示しており、業界の関係者はStream-Omniの潜在的可能性を高く評価しています。中国科学院の研究者たちは今後もこの分野での更なる発展に取り組む姿勢を示しており、期待が高まっています。また、Hugging Faceで論文やモデルを確認できます。本研究に対する貢献を称えてください。