Apprentissage métacognitif conscient du contexte

Les grands modèles linguistiques tels que ChatGPT démontrent une capacité remarquable à apprendre de nouveaux concepts pendant l’inférence, sans aucun ajustement fin (fine-tuning). En revanche, les modèles visuels entraînés pour détecter de nouveaux objets pendant l’inférence n’ont pas réussi à reproduire cette capacité, et se contentent soit de performances médiocres, soit d’un besoin d’un entraînement méta (meta-training) et/ou d’un ajustement fin sur des objets similaires. Dans ce travail, nous proposons un algorithme d’apprentissage méta qui imite les grands modèles linguistiques en apprenant de nouveaux concepts visuels pendant l’inférence, sans ajustement fin. Notre approche repose sur un extracteur de caractéristiques pré-entraîné figé (frozen), et, de manière analogue à l’apprentissage in-context, reformule l’apprentissage méta visuel comme un modèle de séquence sur des points de données étiquetés et un point de données de test dont l’étiquette est inconnue. Sur 8 des 11 benchmarks d’apprentissage méta, notre méthode — sans entraînement méta ni ajustement fin — dépasse ou égale l’état de l’art, représenté par l’algorithme P>M>F, qui a été lui-même entraîné méta sur ces benchmarks. Le code est disponible à l’adresse suivante : https://github.com/cfifty/CAML.