Moins, c'est plus : des couches linéaires sur les caractéristiques CLIP comme modèle puissant pour VizWiz

Les architectures actuelles destinées aux tâches multimodales, telles que la réponse à des questions visuelles, souffrent d'une complexité élevée. En conséquence, ces architectures sont difficiles à entraîner et nécessitent des ressources computationnelles importantes. Pour remédier à ces limitations, nous proposons une architecture basée sur CLIP qui ne requiert aucune mise au point (fine-tuning) des extracteurs de caractéristiques. Un classificateur linéaire simple est appliqué aux caractéristiques concaténées provenant des encodeurs d’image et de texte. Lors de l’entraînement, une perte auxiliaire est introduite, opérant sur les types de réponses. La classification résultante est ensuite utilisée comme porte d’attention pour la sélection de la classe de réponse. Sur le défi VizWiz 2022 en réponse aux questions visuelles, nous atteignons une précision de 60,15 % pour la Tâche 1 : Prédire la réponse à une question visuelle, et un score AP de 83,78 % pour la Tâche 2 : Prédire la répondabilité d’une question visuelle.