Récupération Multimodale
La recherche intermodale (CMR) est une tâche qui consiste à récupérer des éléments pertinents à partir de différentes modalités, telles que des images, du texte, des vidéos et de l'audio. Le défi principal réside dans le fossé d'hétérogénéité entre les modalités, ce qui signifie que les données provenant de modalités différentes ont des formes de représentation distinctes, rendant leur comparaison directe difficile. Pour résoudre ce problème, la plupart des méthodes de CMR se concentrent sur l'apprentissage d'un espace d'embedding latent partagé où les concepts de différentes modalités sont projetés dans la même dimension, permettant ainsi de mesurer leur similarité à travers des métriques de distance. Cette tâche présente une valeur d'application significative dans des domaines tels que la récupération d'informations multimédia, les systèmes de recommandation et l'interaction homme-machine.