De l'apprentissage par généralisation zéro-shot à la gestion des queues longues avec des descripteurs de classe

Les données du monde réel sont principalement déséquilibrées et à queue longue, mais les modèles profonds peinent à reconnaître les classes rares en présence de classes fréquentes. Souvent, les classes peuvent être accompagnées d'informations annexes telles que des descriptions textuelles, mais il n'est pas encore entièrement clair comment les utiliser pour l'apprentissage avec des données à queue longue. Ces descriptions ont été principalement utilisées dans l'apprentissage par zéro-shot généralisé (ZSL) (Generalized Zero-shot Learning), suggérant que le ZSL avec des descriptions de classe pourrait également être utile pour les distributions à queue longue. Nous décrivons DRAGON, une architecture de fusion tardive pour l'apprentissage à queue longue avec des descripteurs de classe. Elle apprend à (1) corriger le biais en faveur des classes principales sur une base d'échantillon par échantillon ; et (2) fusionner les informations provenant des descriptions de classe pour améliorer la précision des classes de la queue. Nous introduisons également de nouvelles références CUB-LT, SUN-LT, AWA-LT pour l'apprentissage à queue longue avec des descriptions de classe, en nous appuyant sur des jeux de données existants d'apprentissage avec attributs et une version d'Imagenet-LT avec descripteurs de classe. DRAGON surpasse les modèles de pointe sur la nouvelle référence. Il constitue également un nouveau SoTA (State-of-the-Art) sur les références existantes pour l'apprentissage par zéro-shot généralisé avec descripteurs de classe (GFSL-d) et l'apprentissage à queue longue standard (vision seule) ImageNet-LT, CIFAR-10, 100 et Places365.