HyperAIHyperAI
il y a 2 mois

TallyQA : Répondre à des questions de comptage complexes

Manoj Acharya; Kushal Kafle; Christopher Kanan
TallyQA : Répondre à des questions de comptage complexes
Résumé

La plupart des questions de comptage dans les ensembles de données de réponse aux questions visuelles (VQA) sont simples et n'exigent pas plus que la détection d'objets. Dans cette étude, nous examinons des algorithmes pour des questions de comptage complexes qui impliquent des relations entre les objets, l'identification d'attributs, le raisonnement et bien d'autres aspects. Pour ce faire, nous avons créé TallyQA, la plus grande base de données au monde pour le comptage à réponses ouvertes. Nous proposons un nouvel algorithme de comptage qui utilise des réseaux relationnels avec des propositions de régions. Notre méthode permet une utilisation efficace des réseaux relationnels avec des images haute résolution. Elle offre des résultats d'état de l'art par rapport aux systèmes baselines et récents, tant sur TallyQA que sur le benchmark HowMany-QA.

TallyQA : Répondre à des questions de comptage complexes | Articles de recherche récents | HyperAI