HyperAIHyperAI
il y a 11 jours

PromptCap : Résumé d’image guidé par la requête et conscient de la tâche

Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A Smith, Jiebo Luo
PromptCap : Résumé d’image guidé par la requête et conscient de la tâche
Résumé

La réponse aux questions visuelles fondées sur des connaissances (VQA) suppose des questions qui nécessitent des connaissances du monde au-delà de l’image pour aboutir à une réponse correcte. Les grands modèles linguistiques (LM), tels que GPT-3, s’avèrent particulièrement utiles pour cette tâche grâce à leurs puissantes capacités de récupération de connaissances et de raisonnement. Afin de permettre à un LM de comprendre les images, les travaux antérieurs utilisent un modèle de légendage pour convertir les images en texte. Toutefois, lorsqu’un résumé d’image est formulé en une seule phrase, les entités visuelles à décrire restent souvent mal spécifiées. Les légendes génériques d’images omettent souvent des détails visuels essentiels pour permettre au LM de répondre correctement aux questions visuelles. Pour relever ce défi, nous proposons PromptCap (Captioning guidé par une requête), un modèle de légendage conçu pour servir de pont plus efficace entre les images et les grands modèles linguistiques « noirs » (black-box LMs). Contrairement aux légendes génériques, PromptCap prend en entrée une requête en langage naturel afin de contrôler les entités visuelles à décrire dans la légende générée. Cette requête inclut une question que la légende doit aider à répondre. Pour éviter toute annotation supplémentaire, PromptCap est entraîné à partir d’exemples synthétisés à l’aide de GPT-3 et de jeux de données existants. Nous démontrons l’efficacité de PromptCap dans un pipeline existant où GPT-3 est sollicité à partir de légendes d’images pour effectuer la VQA. PromptCap surpasse largement les légendes génériques et atteint un taux de précision de pointe sur les tâches de VQA fondées sur des connaissances (60,4 % sur OK-VQA et 59,6 % sur A-OKVQA). Les résultats en zéro-shot sur WebQA montrent que PromptCap se généralise bien à des domaines inédits.

PromptCap : Résumé d’image guidé par la requête et conscient de la tâche | Articles de recherche récents | HyperAI