HyperAIHyperAI

Command Palette

Search for a command to run...

Transparence par conception : Réduire l'écart entre performance et interprétabilité dans le raisonnement visuel

David Mascharka*1 Philip Tran2 Ryan Soklaski1 Arjun Majumdar*1

Résumé

La réponse à des questions visuelles nécessite une raisonnement d'ordre supérieur concernant une image, capacité fondamentale requise par les systèmes machine pour suivre des directives complexes. Récemment, les réseaux modulaires ont été démontrés comme étant un cadre efficace pour effectuer des tâches de raisonnement visuel. Bien que ces réseaux modulaires aient été initialement conçus avec un certain degré de transparence du modèle, leurs performances sur des benchmarks de raisonnement visuel complexes étaient insuffisantes. Les approches actuelles de pointe ne fournissent pas un mécanisme efficace pour comprendre le processus de raisonnement. Dans cet article, nous comblons l'écart de performance entre les modèles interprétables et les méthodes actuelles de pointe en matière de raisonnement visuel. Nous proposons un ensemble de primitives de raisonnement visuel qui, lorsqu'elles sont combinées, se manifestent sous forme d'un modèle capable d'effectuer des tâches de raisonnement complexes d'une manière explicitement interprétable. La fidélité et l'interprétabilité des sorties des primitives permettent une capacité sans égale à diagnostiquer les forces et les faiblesses du modèle résultant. De manière critique, nous montrons que ces primitives sont hautement performantes, atteignant une précision d'état de l'art de 99,1 % sur le jeu de données CLEVR (Compositional Language and Elementary Visual Reasoning). Nous démontrons également que notre modèle est capable d'apprendre efficacement des représentations généralisées lorsque fourni avec une petite quantité de données contenant des attributs d'objets nouveaux. En utilisant la tâche de généralisation CoGenT (Composition and Generalization Test), nous montrons une amélioration supérieure à 20 points de pourcentage par rapport à l'état actuel de l'art.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Transparence par conception : Réduire l'écart entre performance et interprétabilité dans le raisonnement visuel | Articles | HyperAI