HyperAIHyperAI

Command Palette

Search for a command to run...

TGIF-QA : Vers une raisonnement spatio-temporel dans le domaine de la réponse aux questions visuelles

Yunseok Jang; Yale Song; Youngjae Yu; Youngjin Kim; Gunhee Kim

Résumé

La compréhension visuelle et linguistique est devenue un sujet d'étude intensif dans le domaine de l'Intelligence Artificielle. Parmi les nombreuses tâches liées à cette recherche, la réponse automatique aux questions visuelles (Visual Question Answering, VQA) s'est avérée être l'une des plus réussies, visant à apprendre un modèle capable de comprendre le contenu visuel au niveau des détails régionaux et d'établir ses associations avec des paires de questions et de réponses formulées en langage naturel. Malgré les progrès rapides réalisés ces dernières années, la plupart des travaux existants en VQA se sont principalement concentrés sur les images. Dans cet article, nous nous intéressons à l'extension du VQA au domaine vidéo et contribuons à la littérature de trois manières importantes. Premièrement, nous proposons trois nouvelles tâches spécifiquement conçues pour le VQA vidéo, qui nécessitent une raisonnement spatio-temporel pour répondre correctement aux questions. Deuxièmement, nous présentons un nouveau jeu de données à grande échelle pour le VQA vidéo nommé TGIF-QA, qui étend les travaux existants en VQA avec nos nouvelles tâches. Enfin, nous proposons une approche basée sur deux LSTM (Long Short-Term Memory) avec une attention spatiale et temporelle, et démontrons son efficacité par rapport aux techniques conventionnelles de VQA grâce à des évaluations empiriques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp