HyperAI

Générateur De Modalités

Le générateur de modalité (MG) est un élément clé d’un système d’apprentissage multimodal. Sa fonction principale est de générer des sorties de différentes modalités, telles que des images, des vidéos ou des audios. Dans le contexte des modèles multimodaux, le générateur de modalité fonctionne généralement avec d'autres composants tels que l'encodeur de modalité (ME), le projecteur d'entrée (IP), le grand modèle Backbone (LLM Backbone) et le projecteur de sortie (OP) pour parvenir à la compréhension et à la génération de données multimodales.

La mise en œuvre spécifique du générateur de modalités peut inclure, sans s'y limiter, les technologies ou modèles suivants :

  • Génération d'images:Comme la diffusion stable, qui est une technologie de génération d'images basée sur un modèle de diffusion.
  • Génération de vidéos:Comme Zeroscope, qui se concentre sur la génération de contenu vidéo.
  • Génération audio: Tels que AudioLDM, utilisé pour générer des signaux audio.