Apprentissage de représentation par attention multimodale et commentaires synchronisés dans le temps pour l’analyse de contenu vidéo affectif
Bien que les motifs temporels inhérents aux signaux visuels et audio soient essentiels pour l’analyse affective du contenu vidéo, ils n’ont pas encore été pleinement explorés. Dans ce papier, nous proposons une nouvelle méthode multimodale consciente du temps, appelée TAM (Temporal-Aware Multimodal), afin de capturer de manière exhaustive les informations temporelles. Plus précisément, nous concevons un module de fusion multimodale à travers le temps qui applique une fusion basée sur l’attention entre différentes modalités, tant au sein qu’entre des segments vidéo. Ce module permet ainsi de capturer de manière complète les relations temporelles entre les différentes modalités. Par ailleurs, un étiquetage émotionnel unique par segment ne fournit pas une supervision adéquate pour l’apprentissage des représentations de chaque segment, ce qui rend difficile l’extraction des motifs temporels. Nous exploitons alors des commentaires synchronisés dans le temps (TSCs, time-synchronized comments) comme supervision auxiliaire, car ces commentaires sont facilement accessibles et portent des indices émotionnels riches. Deux tâches d’apprentissage auto-supervisé basées sur les TSCs sont proposées : la première vise à prédire les mots émotionnels présents dans un TSC à partir de la représentation vidéo et du sens contextuel du commentaire ; la seconde consiste à prédire le segment vidéo dans lequel le TSC apparaît, en calculant la corrélation entre la représentation vidéo et l’embedding du TSC. Ces tâches auto-supervisées sont utilisées pour pré-entraîner le module de fusion multimodale à travers le temps sur un grand ensemble de données vidéo-TSC, extrait automatiquement depuis le web sans coût d’étiquetage. Ce pré-entraînement encourage le module de fusion à apprendre des représentations pour les segments contenant des TSC, permettant ainsi de capturer davantage de motifs affectifs temporels. Les résultats expérimentaux sur trois jeux de données de référence montrent que le module de fusion proposé atteint des performances de pointe dans l’analyse affective du contenu vidéo. Des études d’ablation confirment que, après pré-entraînement basé sur les TSCs, le module de fusion apprend davantage de motifs affectifs par segment et atteint une meilleure performance globale.