モダリティ ジェネレータモダリティ ジェネレータ
モダリティ ジェネレーター (MG) は、マルチモーダル学習システムの主要なコンポーネントであり、その主な機能は、画像、ビデオ、オーディオなどのさまざまなモダリティで出力を生成することです。マルチモーダル モデルのコンテキストでは、モダリティ ジェネレーターは通常、モダリティ エンコーダー (ME)、入力プロジェクター (IP)、大規模モデル ベース (LLM バックボーン)、および出力プロジェクター (出力プロジェクター、略して OP) に関連付けられます。と他のコンポーネントが連携して、マルチモーダル データの理解と生成を実現します。
モーダル ジェネレーターの具体的な実装には、次のテクノロジーまたはモデルが含まれますが、これらに限定されません。
- 画像生成:拡散モデルに基づく画像生成技術であるStable Diffusionなど。
- ビデオ生成:ビデオコンテンツの生成に焦点を当てたZeroscopeなど。
- オーディオの生成: AudioLDM など、オーディオ信号の生成に使用されます。