HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de représentation par attention multimodale et commentaires synchronisés dans le temps pour l’analyse de contenu vidéo affectif

Lin Fang Shangfei Wang Jicai Pan

Résumé

Bien que les motifs temporels inhérents aux signaux visuels et audio soient essentiels pour l’analyse affective du contenu vidéo, ils n’ont pas encore été pleinement explorés. Dans ce papier, nous proposons une nouvelle méthode multimodale consciente du temps, appelée TAM (Temporal-Aware Multimodal), afin de capturer de manière exhaustive les informations temporelles. Plus précisément, nous concevons un module de fusion multimodale à travers le temps qui applique une fusion basée sur l’attention entre différentes modalités, tant au sein qu’entre des segments vidéo. Ce module permet ainsi de capturer de manière complète les relations temporelles entre les différentes modalités. Par ailleurs, un étiquetage émotionnel unique par segment ne fournit pas une supervision adéquate pour l’apprentissage des représentations de chaque segment, ce qui rend difficile l’extraction des motifs temporels. Nous exploitons alors des commentaires synchronisés dans le temps (TSCs, time-synchronized comments) comme supervision auxiliaire, car ces commentaires sont facilement accessibles et portent des indices émotionnels riches. Deux tâches d’apprentissage auto-supervisé basées sur les TSCs sont proposées : la première vise à prédire les mots émotionnels présents dans un TSC à partir de la représentation vidéo et du sens contextuel du commentaire ; la seconde consiste à prédire le segment vidéo dans lequel le TSC apparaît, en calculant la corrélation entre la représentation vidéo et l’embedding du TSC. Ces tâches auto-supervisées sont utilisées pour pré-entraîner le module de fusion multimodale à travers le temps sur un grand ensemble de données vidéo-TSC, extrait automatiquement depuis le web sans coût d’étiquetage. Ce pré-entraînement encourage le module de fusion à apprendre des représentations pour les segments contenant des TSC, permettant ainsi de capturer davantage de motifs affectifs temporels. Les résultats expérimentaux sur trois jeux de données de référence montrent que le module de fusion proposé atteint des performances de pointe dans l’analyse affective du contenu vidéo. Des études d’ablation confirment que, après pré-entraînement basé sur les TSCs, le module de fusion apprend davantage de motifs affectifs par segment et atteint une meilleure performance globale.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp