HyperAIHyperAI

Command Palette

Search for a command to run...

Moins, c'est plus : des couches linéaires sur les caractéristiques CLIP comme modèle puissant pour VizWiz

Fabian Deuser Konrad Habel Philipp J. Rösch Norbert Oswald

Résumé

Les architectures actuelles destinées aux tâches multimodales, telles que la réponse à des questions visuelles, souffrent d'une complexité élevée. En conséquence, ces architectures sont difficiles à entraîner et nécessitent des ressources computationnelles importantes. Pour remédier à ces limitations, nous proposons une architecture basée sur CLIP qui ne requiert aucune mise au point (fine-tuning) des extracteurs de caractéristiques. Un classificateur linéaire simple est appliqué aux caractéristiques concaténées provenant des encodeurs d’image et de texte. Lors de l’entraînement, une perte auxiliaire est introduite, opérant sur les types de réponses. La classification résultante est ensuite utilisée comme porte d’attention pour la sélection de la classe de réponse. Sur le défi VizWiz 2022 en réponse aux questions visuelles, nous atteignons une précision de 60,15 % pour la Tâche 1 : Prédire la réponse à une question visuelle, et un score AP de 83,78 % pour la Tâche 2 : Prédire la répondabilité d’une question visuelle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Moins, c'est plus : des couches linéaires sur les caractéristiques CLIP comme modèle puissant pour VizWiz | Articles | HyperAI