il y a 6 mois

Résumé

Un modèle vidéo-langage efficace doit prendre en compte le coût computationnel, en raison du grand nombre de trames vidéo, parfois intractable. Les approches paramétriques telles que le mécanisme d’attention ne sont pas idéales, car leur coût computationnel augmente quadratiquement avec la longueur de la vidéo. À la place, les études antérieures se sont appuyées sur une extraction hors ligne de caractéristiques ou un échantillonnage de trames afin de représenter efficacement la vidéo, en se concentrant principalement sur la modélisation intermodale sur de courtes séquences vidéo. Dans cet article, nous proposons un modèle semi-paramétrique de génération de texte fondé sur la vidéo, nommé SeViT, offrant une nouvelle perspective pour une modélisation vidéo-langage évolutive, adaptée aux vidéos longues et non tronquées. En traitant la vidéo comme un dépôt externe de données, SeViT intègre un module de récupération de trames non paramétrique, qui sélectionne un petit nombre de trames pertinentes pour une requête donnée à partir du dépôt, ainsi qu’un générateur paramétrique qui agrège efficacement ces trames avec la requête via des méthodes de fusion tardive. Les résultats expérimentaux démontrent que notre méthode présente un avantage significatif sur les vidéos longues et dans la compréhension causale des vidéos. En outre, notre modèle atteint un nouveau état de l’art sur quatre jeux de données vidéo-langage : iVQA (+4,8), Next-QA (+6,9), ActivityNet-QA (+4,8) en précision, et MSRVTT-Caption (+3,6) en score CIDEr.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension Vidéo

Réponse À Des Questions Visuelles

Multimodal

Vision Par Ordinateur

Tâche

Sungdong Kim Jin-Hwa Kim Jiyoung Lee Minjoon Seo

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension Vidéo

Réponse À Des Questions Visuelles

Multimodal

Vision Par Ordinateur

Tâche

Sungdong Kim Jin-Hwa Kim Jiyoung Lee Minjoon Seo

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Génération de texte fondée sur la vidéo à paramètres semi-paramétriques | Articles | HyperAI

Command Palette

Génération de texte fondée sur la vidéo à paramètres semi-paramétriques

Sungdong Kim Jin-Hwa Kim Jiyoung Lee Minjoon Seo

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Génération de texte fondée sur la vidéo à paramètres semi-paramétriques

Sungdong Kim Jin-Hwa Kim Jiyoung Lee Minjoon Seo

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Génération de texte fondée sur la vidéo à paramètres semi-paramétriques

Sungdong Kim Jin-Hwa Kim Jiyoung Lee Minjoon Seo

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters