HyperAIHyperAI
il y a 7 jours

iPerceive : Application du raisonnement du sens commun à la captioning vidéo dense multimodal et à la réponse aux questions vidéo

Aman Chadha, Gurneet Arora, Navpreet Kaloty
iPerceive : Application du raisonnement du sens commun à la captioning vidéo dense multimodal et à la réponse aux questions vidéo
Résumé

La plupart des travaux antérieurs en compréhension visuelle se concentrent uniquement sur l’analyse du « quoi » (par exemple, la reconnaissance d’événements) et du « où » (par exemple, la localisation d’événements), ce qui, dans certains cas, échoue à décrire correctement les relations contextuelles entre les événements ou conduit à une attention visuelle fondamentale erronée. Une partie de ce qui nous distingue fondamentalement des machines réside dans notre instinct naturel de rechercher une causalité derrière toute association, par exemple un événement Y qui survient directement à la suite d’un événement X. À cet effet, nous proposons iPerceive, un cadre permettant de comprendre le « pourquoi » entre les événements dans une vidéo en construisant une base de connaissances du bon sens à partir de indices contextuels afin d’inférer des relations causales entre les objets présents dans la vidéo. Nous démontrons l’efficacité de notre méthode à travers les tâches de rédaction de légendes vidéo dense (DVC) et de réponse à des questions sur vidéo (VideoQA). En outre, alors que la plupart des travaux antérieurs sur la DVC et la VideoQA s’appuient exclusivement sur des informations visuelles, d’autres modalités telles que l’audio et la parole sont essentielles à la perception d’un environnement par un observateur humain. Nous formulons les tâches de DVC et de VideoQA comme des problèmes de traduction automatique exploitant plusieurs modalités. En évaluant les performances de iPerceive DVC et iPerceive VideoQA sur les jeux de données ActivityNet Captions et TVQA respectivement, nous montrons que notre approche améliore l’état de l’art. Le code source et des exemples sont disponibles à l’adresse : iperceive.amanchadha.com.

iPerceive : Application du raisonnement du sens commun à la captioning vidéo dense multimodal et à la réponse aux questions vidéo | Articles de recherche récents | HyperAI