HyperAIHyperAI
il y a 17 jours

Les sémantiques riches améliorent l'apprentissage peu supervisé

Mohamed Afham, Salman Khan, Muhammad Haris Khan, Muzammal Naseer, Fahad Shahbaz Khan
Les sémantiques riches améliorent l'apprentissage peu supervisé
Résumé

L’apprentissage humain bénéficie des entrées multimodales, qui apparaissent souvent sous la forme de significations riches (par exemple, une description des attributs d’un objet lorsqu’on l’apprend). Cela nous permet d’acquérir des concepts généralisables à partir d’un nombre très limité d’exemples visuels. Toutefois, les méthodes actuelles d’apprentissage en peu d’exemples (few-shot learning, FSL) utilisent des étiquettes numériques pour désigner les classes d’objets, lesquelles ne fournissent pas de significations sémantiques riches sur les concepts appris. Dans ce travail, nous montrons qu’en utilisant des descriptions linguistiques au niveau de la classe, pouvant être obtenues à un coût d’annotation minimal, il est possible d’améliorer les performances du FSL. Étant donné un ensemble de support et des requêtes, notre idée principale consiste à créer une caractéristique visuelle contrainte (prototype hybride), qui est ensuite utilisée pour générer des descriptions linguistiques des classes comme tâche auxiliaire durant l’entraînement. Nous proposons un mécanisme d’encodage avant et arrière basé sur un Transformer afin de relier les jetons visuels et sémantiques, permettant ainsi de capturer des relations complexes entre les deux modalités. Forcer les prototypes à conserver des informations sémantiques relatives à la description de la classe agit comme un régulariseur sur les caractéristiques visuelles, améliorant ainsi leur généralisation aux nouvelles classes lors de l’inférence. En outre, cette stratégie impose un biais humain sur les représentations apprises, garantissant que le modèle établit fidèlement des liens entre les concepts visuels et sémantiques, ce qui améliore la lisibilité du modèle. Nos expériences sur quatre jeux de données, ainsi que des études d’ablation, démontrent les avantages d’une modélisation efficace de significations riches pour le FSL.