HyperAIHyperAI
il y a 2 mois

Cycle-SUM : Réseaux LSTM adversariaux cycle-cohérents pour la synthèse vidéo non supervisée

Li Yuan; Francis EH Tay; Ping Li; Li Zhou; Jiashi Feng
Cycle-SUM : Réseaux LSTM adversariaux cycle-cohérents pour la synthèse vidéo non supervisée
Résumé

Dans cet article, nous présentons un nouveau modèle d'agrégation vidéo non supervisé qui n'a pas besoin d'annotations manuelles. Le modèle proposé, appelé Cycle-SUM, adopte une nouvelle architecture LSTM adversariale cycliquement cohérente capable de maximiser efficacement la conservation des informations et la compacité du résumé vidéo. Il se compose d'un sélecteur de trames et d'un évaluateur basé sur l'apprentissage cycliquement cohérent. Le sélecteur est un réseau LSTM bidirectionnel qui apprend les représentations vidéo intégrant les relations à long terme entre les trames vidéo. L'évaluateur définit une métrique de conservation des informations apprenable entre la vidéo originale et le résumé vidéo et « supervise » le sélecteur pour identifier les trames les plus informatives afin de constituer le résumé vidéo. Plus particulièrement, l'évaluateur est composé de deux réseaux de neurones génératifs adverses (GANs), dans lesquels le GAN avant est appris pour reconstruire la vidéo originale à partir du résumé vidéo tandis que le GAN arrière apprend à inverser ce traitement. La cohérence entre les sorties de ce processus d'apprentissage cyclique est utilisée comme métrique de conservation des informations pour l'agrégation vidéo. Nous démontrons la relation étroite entre la maximisation de l'information mutuelle et cette procédure d'apprentissage cyclique. Les expériences menées sur deux ensembles de données de référence pour l'agrégation vidéo valident les performances de pointe et la supériorité du modèle Cycle-SUM par rapport aux méthodes précédentes.Note: "Trame" is used here for "frame" in the context of video processing, as it is the more common term in French for this specific use case.

Cycle-SUM : Réseaux LSTM adversariaux cycle-cohérents pour la synthèse vidéo non supervisée | Articles de recherche récents | HyperAI