HyperAI超神経

モダリティ ジェネレータモダリティ ジェネレータ

モダリティ ジェネレーター (MG) は、マルチモーダル学習システムの主要なコンポーネントであり、その主な機能は、画像、ビデオ、オーディオなどのさまざまなモダリティで出力を生成することです。マルチモーダル モデルのコンテキストでは、モダリティ ジェネレーターは通常、モダリティ エンコーダー (ME)、入力プロジェクター (IP)、大規模モデル ベース (LLM バックボーン)、および出力プロジェクター (出力プロジェクター、略して OP) に関連付けられます。と他のコンポーネントが連携して、マルチモーダル データの理解と生成を実現します。

モーダル ジェネレーターの具体的な実装には、次のテクノロジーまたはモデルが含まれますが、これらに限定されません。

  • 画像生成:拡散モデルに基づく画像生成技術であるStable Diffusionなど。
  • ビデオ生成:ビデオコンテンツの生成に焦点を当てたZeroscopeなど。
  • オーディオの生成: AudioLDM など、オーディオ信号の生成に使用されます。