HyperAIHyperAI

Command Palette

Search for a command to run...

Une base simple pour la réponse aux questions visuelles fondée sur les connaissances

Alexandros Xenos Themos Stafylakis Ioannis Patras Georgios Tzimiropoulos

Résumé

Ce papier traite du problème de la réponse à des questions visuelles fondée sur des connaissances (KB-VQA). Les travaux récents ont mis en évidence l'importance d'intégrer à la fois des connaissances explicites (via des bases de données externes) et implicites (via des modèles linguistiques à grande échelle, LLMs) afin de répondre efficacement aux questions nécessitant des connaissances externes. Une limitation commune de ces approches réside dans la complexité de leurs chaînes de traitement (pipelines), qui dépendent souvent fortement de l'accès à l'API GPT-3. Notre contribution principale dans ce travail est de proposer une chaîne de traitement bien plus simple et facilement reproductible, qui repose essentiellement sur un apprentissage en contexte efficace en sollicitant LLaMA (1 et 2) à l’aide de légendes informatives par rapport à la question, servant de contexte. Contrairement aux approches récentes, notre méthode est sans entraînement, ne nécessite ni accès à des bases de données externes ni à des API, tout en atteignant des performances de pointe sur les jeux de données OK-VQA et A-OK-VQA. Enfin, nous menons plusieurs études d’ablation afin d’analyser les aspects clés de notre méthode. Le code est disponible publiquement à l’adresse suivante : https://github.com/alexandrosXe/ASimple-Baseline-For-Knowledge-Based-VQA


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp