Cycle-SUM: Zyklus-konsistente adversarische LSTM-Netzwerke für unüberwachte Videozusammenfassung

In dieser Arbeit stellen wir ein neues unüberwachtes Videozusammenfassungsmodell vor, das keine manuelle Annotation erfordert. Das vorgeschlagene Modell, Cycle-SUM genannt, verwendet eine neuartige zyklisch konsistente adversarische LSTM-Architektur, die die Informationsbeibehaltung und Kompaktheit der Zusammenfassungsvideos effektiv maximieren kann. Es besteht aus einem Frameselektor und einem auf zyklisch konsistentem Lernen basierenden Evaluierer. Der Selektor ist ein bidirektionales LSTM-Netzwerk, das Video-Darstellungen lernt, die die langfristigen Beziehungen zwischen Videoframes einbetten. Der Evaluierer definiert ein lernfähiges Informationsbeibehaltungsmaß zwischen dem ursprünglichen Video und der Zusammenfassung und "überwacht" den Selektor, um die informativsten Frames zu identifizieren, aus denen die Zusammenfassung zusammengesetzt wird. Insbesondere besteht der Evaluierer aus zwei generativen adversären Netzen (GANs), wobei das vorwärtsgerichtete GAN gelernt wird, das ursprüngliche Video aus der Zusammenfassung wiederherzustellen, während das rückwärtsgerichtete GAN lernt, den Prozess zu invertieren. Die Konsistenz zwischen den Ausgaben dieses zyklischen Lernens wird als Informationsbeibehaltungsmaß für die Videozusammenfassung verwendet. Wir zeigen die enge Beziehung zwischen der Maximierung der gegenseitigen Information und diesem zyklischen Lernverfahren. Experimente anhand zweier Benchmark-Datensätze zur Videozusammenfassung bestätigen die Spitzenleistung und Überlegenheit des Cycle-SUM-Modells gegenüber früheren Baselines.