HyperAIHyperAI
il y a 8 jours

Connaissance d'action pour la génération de légendes vidéo à l'aide de réseaux neuronaux de graphes

{Cheol Jeong, Fikriansyah Adzaka, Bahy Helmi Hartoyo Putra, Vania Velda, Willy Fitra Hendria}
Résumé

De nombreuses méthodes existantes de génération de légendes vidéo captent les informations d’action à partir des caractéristiques extraites d’un modèle de reconnaissance d’actions. Toutefois, l’utilisation directe de ces caractéristiques d’action sans représentation spécifique aux objets peut ne pas suffire à modéliser adéquatement les interactions entre objets. En conséquence, les légendes générées risquent de manquer de précision dans la description des actions et des objets présents dans les scènes. Pour remédier à ce problème, nous proposons d’intégrer les caractéristiques d’action comme caractéristiques d’arête dans un réseau neuronal graphique, où les nœuds représentent les objets, permettant ainsi de capturer une représentation visuelle plus fine des relations objet-action-objet. Les méthodes précédentes basées sur les graphes pour la génération de légendes vidéo s’appuyaient généralement sur un modèle de détection d’objets pré-entraîné pour construire les représentations des nœuds. Toutefois, ce modèle de détection peut omettre de détecter certains objets importants. Pour atténuer ce défaut, nous introduisons par ailleurs une représentation des nœuds basée sur une grille, où les nœuds sont décrits par des caractéristiques extraites à partir de grilles de cadres vidéo. Grâce à cette approche, les objets clés présents dans les scènes sont mieux capturés. Afin d’éviter toute complexité supplémentaire lors de l’inférence, les connaissances du graphe proposé sont transférées à un autre réseau neuronal via une distillation de connaissances. Notre méthode atteint des résultats de pointe sur deux jeux de données populaires pour la génération de légendes vidéo, à savoir MSVD et MSR-VTT, sur toutes les métriques évaluées. Le code source de notre méthode est disponible à l’adresse suivante : https://github.com/Sejong-VLI/V2T-Action-Graph-JKSUCIS-2023.

Connaissance d'action pour la génération de légendes vidéo à l'aide de réseaux neuronaux de graphes | Articles de recherche récents | HyperAI