Modèles à embouteillages de concepts rares : Astuces Gumbel dans l'apprentissage contrastif

Nous proposons une nouvelle architecture et une méthode d’classification explicite basée sur les Modèles à Bouteilles de Concepts (Concept Bottleneck Models, CBMs). Alors que les approches de pointe dans la tâche de classification d’images fonctionnent comme des boîtes noires, la demande croissante porte désormais sur des modèles capables de fournir des résultats interprétables. Ces modèles apprennent souvent à prédire la distribution sur les étiquettes de classe à l’aide d’une description supplémentaire des instances cibles, appelée « concepts ». Toutefois, les méthodes existantes basées sur les bouteilles présentent plusieurs limitations : leur précision est généralement inférieure à celle des modèles standards, et les CBMs nécessitent un ensemble supplémentaire de concepts pour être efficaces. Nous proposons un cadre permettant de construire des modèles CBM à partir d’encodeurs multimodaux pré-entraînés ainsi que de nouvelles architectures inspirées de CLIP. En introduisant un nouveau type de couches, appelées couches de bouteille de concepts, nous décrivons trois méthodes d’entraînement : avec une perte ℓ₁, une perte contrastive, et une fonction de perte fondée sur la distribution Gumbel-Softmax (Sparse-CBM), tandis que la dernière couche entièrement connectée est toujours entraînée avec une entropie croisée. Nous démontrons une amélioration significative de la précision en utilisant des couches cachées creuses dans les modèles à bouteille basés sur CLIP. Cela indique que la représentation creuse du vecteur d’activation des concepts est pertinente dans les modèles à bouteille de concepts. En outre, grâce à notre algorithme de recherche de matrice de concepts (Concept Matrix Search), nous améliorons les prédictions de CLIP sur des jeux de données complexes, sans nécessiter d’entraînement supplémentaire ni de fine-tuning. Le code est disponible à l’adresse suivante : https://github.com/Andron00e/SparseCBM.