OrdinalCLIP : Apprentissage de prompts de rang pour la régression ordonnée guidée par le langage

Ce papier présente un paradigme alimenté par le langage pour la régression ordonnée. Les méthodes existantes traitent généralement chaque rang comme une catégorie et utilisent un ensemble de poids pour apprendre ces concepts. Ces méthodes sont faciles à surajuster et obtiennent généralement des performances insatisfaisantes, car les concepts appris proviennent principalement de l'ensemble d'entraînement. Les modèles pré-entraînés de grande taille récents, tels que CLIP, ont montré des performances impressionnantes dans diverses tâches visuelles. Dans ce travail, nous proposons d'apprendre les concepts de rang à partir de l'espace latent sémantique riche de CLIP. Plus précisément, nous reformulons cette tâche en un problème de correspondance image-langage avec un objectif contrastif, qui considère les étiquettes comme du texte et obtient un prototype linguistique à partir d'un encodeur de texte pour chaque rang. Bien que l'ingénierie des prompts pour CLIP soit extrêmement fastidieuse et chronophage, nous proposons OrdinalCLIP, une méthode de prompting différentiable pour adapter CLIP à la régression ordonnée. OrdinalCLIP comprend des jetons de contexte apprenables et des plongements (embeddings) de rang apprenables ; les plongements de rang apprenables sont construits en modélisant explicitement la continuité numérique, ce qui entraîne des prototypes linguistiques bien ordonnés et compacts dans l'espace CLIP. Une fois appris, il est possible de ne conserver que les prototypes linguistiques et d'éliminer le grand modèle linguistique, ce qui ne génère aucune surcharge computationnelle supplémentaire par rapport au contrepartie à tête linéaire. Les résultats expérimentaux montrent que notre paradigme atteint des performances compétitives dans les tâches générales de régression ordonnée et améliore les performances dans les configurations à faible nombre d'exemples (few-shot) et décalage distributionnel (distribution shift) pour l'estimation de l'âge. Le code est disponible sur https://github.com/xk-huang/OrdinalCLIP.