HyperAIHyperAI

Command Palette

Search for a command to run...

Montrer, Demander, Prêter Attention et Répondre : Une Base Solide pour le Questionnement Visuel et les Réponses

Vahid Kazemi Ali Elqursh

Résumé

Ce document présente une nouvelle référence pour la tâche de réponse à des questions visuelles. Étant donné une image et une question formulée en langage naturel, notre modèle produit des réponses précises en fonction du contenu de l'image. Bien que notre modèle soit architecturalement simple et relativement petit en termes de paramètres entraînables, il établit un nouveau niveau d'excellence sur les benchmarks VQA (Visual Question Answering) déséquilibrés et équilibrés. Sur le défi ouvert VQA 1.0, notre modèle atteint une précision de 64,6 % sur l'ensemble de test standard sans utiliser de données supplémentaires, ce qui représente une amélioration de 0,4 % par rapport à l'état de l'art actuel. Sur le nouvel ensemble de validation VQA 2.0, notre modèle obtient un score de 59,7 %, surpassant les meilleurs résultats précédemment rapportés de 0,5 %. Les résultats présentés dans ce document sont particulièrement intéressants car des modèles très similaires ont été testés auparavant mais avec des performances nettement inférieures. À la lumière de ces nouveaux résultats, nous espérons voir plus de recherches significatives sur la réponse à des questions visuelles dans le futur.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp