il y a 6 mois

Résumé

La plupart des travaux antérieurs en compréhension visuelle se concentrent uniquement sur l’analyse du « quoi » (par exemple, la reconnaissance d’événements) et du « où » (par exemple, la localisation d’événements), ce qui, dans certains cas, échoue à décrire correctement les relations contextuelles entre les événements ou conduit à une attention visuelle fondamentale erronée. Une partie de ce qui nous distingue fondamentalement des machines réside dans notre instinct naturel de rechercher une causalité derrière toute association, par exemple un événement Y qui survient directement à la suite d’un événement X. À cet effet, nous proposons iPerceive, un cadre permettant de comprendre le « pourquoi » entre les événements dans une vidéo en construisant une base de connaissances du bon sens à partir de indices contextuels afin d’inférer des relations causales entre les objets présents dans la vidéo. Nous démontrons l’efficacité de notre méthode à travers les tâches de rédaction de légendes vidéo dense (DVC) et de réponse à des questions sur vidéo (VideoQA). En outre, alors que la plupart des travaux antérieurs sur la DVC et la VideoQA s’appuient exclusivement sur des informations visuelles, d’autres modalités telles que l’audio et la parole sont essentielles à la perception d’un environnement par un observateur humain. Nous formulons les tâches de DVC et de VideoQA comme des problèmes de traduction automatique exploitant plusieurs modalités. En évaluant les performances de iPerceive DVC et iPerceive VideoQA sur les jeux de données ActivityNet Captions et TVQA respectivement, nous montrons que notre approche améliore l’état de l’art. Le code source et des exemples sont disponibles à l’adresse : iperceive.amanchadha.com.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réponse À Des Questions Visuelles

Video Captioning

Multimodal

Tâche

Aman Chadha Gurneet Arora Navpreet Kaloty

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réponse À Des Questions Visuelles

Video Captioning

Multimodal

Tâche

Aman Chadha Gurneet Arora Navpreet Kaloty

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

iPerceive : Application du raisonnement du sens commun à la captioning vidéo dense multimodal et à la réponse aux questions vidéo | Articles | HyperAI

Command Palette

iPerceive : Application du raisonnement du sens commun à la captioning vidéo dense multimodal et à la réponse aux questions vidéo

Aman Chadha Gurneet Arora Navpreet Kaloty

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

iPerceive : Application du raisonnement du sens commun à la captioning vidéo dense multimodal et à la réponse aux questions vidéo

Aman Chadha Gurneet Arora Navpreet Kaloty

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

iPerceive : Application du raisonnement du sens commun à la captioning vidéo dense multimodal et à la réponse aux questions vidéo

Aman Chadha Gurneet Arora Navpreet Kaloty

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters