HyperAIHyperAI

Command Palette

Search for a command to run...

Connaissance d'action pour la génération de légendes vidéo à l'aide de réseaux neuronaux de graphes

Cheol Jeong Fikriansyah Adzaka Bahy Helmi Hartoyo Putra Vania Velda Willy Fitra Hendria

Résumé

De nombreuses méthodes existantes de génération de légendes vidéo captent les informations d’action à partir des caractéristiques extraites d’un modèle de reconnaissance d’actions. Toutefois, l’utilisation directe de ces caractéristiques d’action sans représentation spécifique aux objets peut ne pas suffire à modéliser adéquatement les interactions entre objets. En conséquence, les légendes générées risquent de manquer de précision dans la description des actions et des objets présents dans les scènes. Pour remédier à ce problème, nous proposons d’intégrer les caractéristiques d’action comme caractéristiques d’arête dans un réseau neuronal graphique, où les nœuds représentent les objets, permettant ainsi de capturer une représentation visuelle plus fine des relations objet-action-objet. Les méthodes précédentes basées sur les graphes pour la génération de légendes vidéo s’appuyaient généralement sur un modèle de détection d’objets pré-entraîné pour construire les représentations des nœuds. Toutefois, ce modèle de détection peut omettre de détecter certains objets importants. Pour atténuer ce défaut, nous introduisons par ailleurs une représentation des nœuds basée sur une grille, où les nœuds sont décrits par des caractéristiques extraites à partir de grilles de cadres vidéo. Grâce à cette approche, les objets clés présents dans les scènes sont mieux capturés. Afin d’éviter toute complexité supplémentaire lors de l’inférence, les connaissances du graphe proposé sont transférées à un autre réseau neuronal via une distillation de connaissances. Notre méthode atteint des résultats de pointe sur deux jeux de données populaires pour la génération de légendes vidéo, à savoir MSVD et MSR-VTT, sur toutes les métriques évaluées. Le code source de notre méthode est disponible à l’adresse suivante : https://github.com/Sejong-VLI/V2T-Action-Graph-JKSUCIS-2023.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Connaissance d'action pour la génération de légendes vidéo à l'aide de réseaux neuronaux de graphes | Articles | HyperAI