HyperAI

Apprentissage Multimodal

La modalité fait référence à la manière spécifique dont les gens reçoivent des informations. Étant donné que les données multimédias sont souvent un support de transmission de plusieurs types d’informations (par exemple, une vidéo transmet souvent des informations textuelles, visuelles et auditives en même temps), l’apprentissage multimodal est progressivement devenu le principal moyen d’analyse et de compréhension du contenu multimédia.

L'apprentissage multimodal comprend principalement les axes de recherche suivants :

  1. Apprentissage de représentation multimodale : étudie principalement comment numériser les informations sémantiques contenues dans plusieurs données modales en vecteurs à valeurs réelles.
  2. Cartographie intermodale : étudie principalement comment mapper les informations d'une modalité spécifique vers une autre modalité.
  3. Alignement : Étudie principalement comment identifier la correspondance entre les composants et les éléments entre différents modes.
  4. Fusion : étudie principalement comment intégrer des modèles et des fonctionnalités entre différentes modalités.
  5. Apprentissage collaboratif : étudie principalement comment transférer les connaissances acquises dans des modalités riches en informations vers des modalités pauvres en informations, de sorte que l'apprentissage de chaque modalité puisse s'entraider. Les méthodes typiques incluent l’apprentissage multimodal à zéro coup, l’adaptation de domaine, etc.

Références

【1】Chronique de l'IA - Bilan des progrès de la recherche sur l'apprentissage multimodal (Zhihu)