Performances des classifieurs à modèles de mélanges gaussiens dans des espaces de caractéristiques intégrés

Les embeddings de données fournis par CLIP et ImageBind offrent des caractéristiques puissantes pour l’analyse de données multimédias et/ou multimodales. Nous évaluons ici leur performance dans une tâche de classification en utilisant une couche basée sur des modèles de mélanges gaussiens (GMM) comme alternative à la couche Softmax classique. Les classificateurs fondés sur les GMM ont récemment démontré des performances intéressantes lorsqu’ils sont intégrés dans des pipelines d’apprentissage profond entraînés end-to-end. Notre première contribution consiste à étudier les performances de la classification basée sur les GMM, en tirant parti des espaces d’embeddings fournis par CLIP et ImageBind. Notre deuxième contribution réside dans la proposition d’un nouveau classificateur basé sur les GMM, caractérisé par un nombre de paramètres inférieur à celui des approches précédemment proposées. Nos résultats montrent qu’ dans la plupart des cas, sur les espaces d’embeddings testés, un seul composant gaussien par classe suffit généralement à capturer les caractéristiques de chaque classe. Nous supposons que ce phénomène pourrait être attribué à la fonction de perte contrastive utilisée lors de l’entraînement de ces espaces d’embeddings, qui a pour effet naturel de regrouper les représentations features au sein de chaque classe. Nous avons également observé qu’ImageBind offre souvent de meilleures performances que CLIP pour la classification d’ensembles de données d’images, même lorsque ces espaces d’embeddings sont compressés par analyse en composantes principales (PCA).