Command Palette
Search for a command to run...
Une base simple pour la réponse aux questions visuelles fondée sur les connaissances
Une base simple pour la réponse aux questions visuelles fondée sur les connaissances
Alexandros Xenos Themos Stafylakis Ioannis Patras Georgios Tzimiropoulos
Résumé
Ce papier traite du problème de la réponse à des questions visuelles fondée sur des connaissances (KB-VQA). Les travaux récents ont mis en évidence l'importance d'intégrer à la fois des connaissances explicites (via des bases de données externes) et implicites (via des modèles linguistiques à grande échelle, LLMs) afin de répondre efficacement aux questions nécessitant des connaissances externes. Une limitation commune de ces approches réside dans la complexité de leurs chaînes de traitement (pipelines), qui dépendent souvent fortement de l'accès à l'API GPT-3. Notre contribution principale dans ce travail est de proposer une chaîne de traitement bien plus simple et facilement reproductible, qui repose essentiellement sur un apprentissage en contexte efficace en sollicitant LLaMA (1 et 2) à l’aide de légendes informatives par rapport à la question, servant de contexte. Contrairement aux approches récentes, notre méthode est sans entraînement, ne nécessite ni accès à des bases de données externes ni à des API, tout en atteignant des performances de pointe sur les jeux de données OK-VQA et A-OK-VQA. Enfin, nous menons plusieurs études d’ablation afin d’analyser les aspects clés de notre méthode. Le code est disponible publiquement à l’adresse suivante : https://github.com/alexandrosXe/ASimple-Baseline-For-Knowledge-Based-VQA