il y a 6 mois

Résumé

La réponse aux questions visuelles fondées sur des connaissances (VQA) suppose des questions qui nécessitent des connaissances du monde au-delà de l’image pour aboutir à une réponse correcte. Les grands modèles linguistiques (LM), tels que GPT-3, s’avèrent particulièrement utiles pour cette tâche grâce à leurs puissantes capacités de récupération de connaissances et de raisonnement. Afin de permettre à un LM de comprendre les images, les travaux antérieurs utilisent un modèle de légendage pour convertir les images en texte. Toutefois, lorsqu’un résumé d’image est formulé en une seule phrase, les entités visuelles à décrire restent souvent mal spécifiées. Les légendes génériques d’images omettent souvent des détails visuels essentiels pour permettre au LM de répondre correctement aux questions visuelles. Pour relever ce défi, nous proposons PromptCap (Captioning guidé par une requête), un modèle de légendage conçu pour servir de pont plus efficace entre les images et les grands modèles linguistiques « noirs » (black-box LMs). Contrairement aux légendes génériques, PromptCap prend en entrée une requête en langage naturel afin de contrôler les entités visuelles à décrire dans la légende générée. Cette requête inclut une question que la légende doit aider à répondre. Pour éviter toute annotation supplémentaire, PromptCap est entraîné à partir d’exemples synthétisés à l’aide de GPT-3 et de jeux de données existants. Nous démontrons l’efficacité de PromptCap dans un pipeline existant où GPT-3 est sollicité à partir de légendes d’images pour effectuer la VQA. PromptCap surpasse largement les légendes génériques et atteint un taux de précision de pointe sur les tâches de VQA fondées sur des connaissances (60,4 % sur OK-VQA et 59,6 % sur A-OKVQA). Les résultats en zéro-shot sur WebQA montrent que PromptCap se généralise bien à des domaines inédits.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réponse À Des Questions Visuelles

Décrivain D'image

Génération Augmentée Par La Recherche

Approche/Framework

Multimodal

Tâche

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réponse À Des Questions Visuelles

Décrivain D'image

Génération Augmentée Par La Recherche

Approche/Framework

Multimodal

Tâche

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

PromptCap : Résumé d’image guidé par la requête et conscient de la tâche | Articles | HyperAI

Command Palette

PromptCap : Résumé d’image guidé par la requête et conscient de la tâche

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

PromptCap : Résumé d’image guidé par la requête et conscient de la tâche

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

PromptCap : Résumé d’image guidé par la requête et conscient de la tâche

Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A Smith Jiebo Luo

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters