Apprentissage profond par renforcement pour la synthèse non supervisée de vidéos avec une récompense de diversité-représentativité

La synthèse vidéo vise à faciliter la navigation à grande échelle dans les vidéos en produisant des résumés courts, concis, diversifiés et représentatifs des vidéos originales. Dans cet article, nous formulons la synthèse vidéo comme un processus de prise de décision séquentielle et développons un réseau de synthèse profonde (DSN) pour résumer les vidéos. Le DSN prédit une probabilité pour chaque image de la vidéo, indiquant la probabilité qu'une image soit sélectionnée, puis prend des décisions basées sur ces distributions de probabilités pour sélectionner les images, formant ainsi des résumés vidéo. Pour entraîner notre DSN, nous proposons un cadre d'apprentissage par renforcement basé sur une formation de bout en bout, où nous concevons une nouvelle fonction de récompense qui prend conjointement en compte la diversité et la représentativité des résumés générés sans dépendre des étiquettes ou des interactions utilisateur. Au cours de l'entraînement, la fonction de récompense évalue la diversité et la représentativité des résumés générés, tandis que le DSN s'efforce d'obtenir des récompenses plus élevées en apprenant à produire des résumés plus diversifiés et plus représentatifs. Comme aucune étiquette n'est nécessaire, notre méthode peut être entièrement non supervisée. De nombreuses expériences menées sur deux jeux de données de référence montrent que notre méthode non supervisée non seulement surpasses d'autres méthodes non supervisées de pointe, mais est également comparable ou même supérieure à la plupart des approches supervisées publiées.