HyperAIHyperAI
il y a 3 mois

Semantic2Graph : Fusion de caractéristiques multi-modales basée sur les graphes pour la segmentation d’actions dans les vidéos

Junbin Zhang, Pei-Hsuan Tsai, Meng-Hsun Tsai
Semantic2Graph : Fusion de caractéristiques multi-modales basée sur les graphes pour la segmentation d’actions dans les vidéos
Résumé

La segmentation d’actions vidéo a été largement appliquée dans de nombreux domaines. La plupart des études antérieures ont recouru à des modèles visionnels basés sur les vidéos pour atteindre cet objectif. Toutefois, ces approches reposent souvent sur un champ réceptif étendu, ou bien sur des méthodes telles que les LSTM ou les Transformers, afin de capturer les dépendances à long terme au sein des vidéos, ce qui entraîne des besoins importants en ressources computationnelles. Pour surmonter ce défi, des modèles basés sur les graphes ont été proposés. Toutefois, les modèles graphiques antérieurs présentent une précision limitée. Ainsi, cette étude introduit une approche structurée en graphe nommée Semantic2Graph, conçue pour modéliser les dépendances à long terme dans les vidéos, réduisant ainsi les coûts computationnels tout en améliorant la précision. Nous construisons une structure de graphe au niveau des trames vidéo. Des arêtes temporelles sont utilisées pour modéliser les relations temporelles et l’ordre des actions au sein des vidéos. Par ailleurs, nous avons conçu des arêtes sémantiques positives et négatives, accompagnées de poids d’arêtes correspondants, afin de capturer à la fois les relations sémantiques à court et à long terme au sein des actions vidéo. Les attributs des nœuds intègrent un ensemble riche de caractéristiques multimodales extraites à partir du contenu vidéo, de la structure du graphe et du texte des étiquettes, incluant des indices visuels, structurels et sémantiques. Pour fusionner efficacement ces informations multimodales, nous utilisons un modèle de réseau de neurones sur graphe (GNN) afin de classifier les étiquettes d’actions des nœuds. Les résultats expérimentaux démontrent que Semantic2Graph surpasse les méthodes de pointe en termes de performance, notamment sur des jeux de données de référence tels que GTEA et 50Salads. Des expériences d’ablation multiples confirment également l’efficacité des caractéristiques sémantiques dans l’amélioration des performances du modèle. Notamment, l’intégration d’arêtes sémantiques dans Semantic2Graph permet une capture rentable des dépendances à long terme, validant ainsi son utilité face aux contraintes de ressources computationnelles rencontrées par les modèles visionnels basés sur les vidéos.