HyperAIHyperAI

Command Palette

Search for a command to run...

MoVie : Repenser les convolutions modulées pour le dénombrement visuel et au-delà

Duy-Kien Nguyen Vedanuj Goswami Xinlei Chen

Résumé

Ce papier se concentre sur le dénombrement visuel, une tâche visant à prédire le nombre d'occurrences d'un objet donné une image naturelle et une requête (par exemple, une question ou une catégorie). Contrairement à la plupart des travaux antérieurs qui reposent sur des modèles explicites et symboliques, souvent coûteux en termes de calcul et limités en généralisation, nous proposons une alternative simple et efficace en revisitant les convolutions modulées, qui permettent de fusionner localement la requête et l’image. Inspirés de la conception des blocs résiduels à goulot, nous appelons notre méthode MoVie, sigle de Modulated conVolutional bottlenecks. Notamment, MoVie reasonne de manière implicite et holistique, et nécessite uniquement un passage avant unique lors de l’inférence. Malgré sa simplicité, MoVie démontre des performances remarquables en dénombrement : 1) elle améliore l’état de l’art sur des tâches de VQA spécifiquement dédiées au dénombrement tout en étant plus efficace ; 2) elle surpasse les méthodes les plus avancées sur des benchmarks exigeants tels que COCO pour le dénombrement d’objets courants ; 3) elle nous a permis d’obtenir la première place du défi VQA 2020 lorsqu’elle a été intégrée comme module traitant les questions liées au « nombre » dans des modèles VQA génériques. Enfin, nous fournissons des preuves que des convolutions modulées telles que MoVie peuvent servir de mécanisme général pour des tâches de raisonnement au-delà du dénombrement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp