HyperAIHyperAI
il y a 2 mois

Tessellation Temporelle : Une Approche Unifiée pour l'Analyse Vidéo

Dotan Kaufman; Gil Levi; Tal Hassner; Lior Wolf
Tessellation Temporelle : Une Approche Unifiée pour l'Analyse Vidéo
Résumé

Nous présentons une approche générale de la compréhension vidéo, inspirée par les techniques de transfert sémantique qui ont été utilisées avec succès pour l'analyse d'images 2D. Notre méthode considère une vidéo comme une séquence unidimensionnelle de clips, chacun associé à sa propre sémantique. La nature de ces sémantiques -- légendes en langage naturel ou autres étiquettes -- dépend de la tâche en question. Une vidéo de test est traitée en établissant des correspondances entre ses clips et ceux des vidéos de référence dont les sémantiques sont connues, après quoi les sémantiques de référence peuvent être transférées à la vidéo de test. Nous décrivons deux méthodes de correspondance, toutes deux conçues pour garantir que (a) les clips de référence ressemblent aux clips de test et que (b) pris ensemble, les sémantiques des clips de référence sélectionnés soient cohérentes et maintiennent une cohérence temporelle. Nous utilisons notre méthode pour le légendage vidéo sur le benchmark LSMDC'16, la synthèse vidéo sur les benchmarks SumMe et TVSum, la détection d'actions temporelles sur le benchmark Thumos2014, et la prédiction sonore sur le benchmark Greatest Hits. Notre méthode non seulement dépasse l'état de l'art dans quatre des cinq benchmarks, mais elle est également la seule méthode unique que nous connaissions qui a été appliquée avec succès à un tel éventail diversifié de tâches.