Clustergestützte Videozusammenfassung mit zeitlicher Kontextbewusstsein

In dieser Arbeit stellen wir TAC-SUM vor, einen neuen und effizienten, trainingsfreien Ansatz zur Videozusammenfassung, der die Einschränkungen bestehender clustergbasierter Modelle durch die Einbeziehung zeitlicher Kontextinformationen überwindet. Unsere Methode unterteilt das Eingabevideo in zeitlich aufeinanderfolgende Segmente mit Clustering-Informationen, was es ermöglicht, zeitliche Bewusstsein in den Clustering-Prozess zu integrieren und sie von früheren clustergbasierten Zusammenfassungsmethoden abhebt. Die resultierenden zeitbewussten Cluster werden dann verwendet, um die endgültige Zusammenfassung unter Verwendung einfacher Regeln für die Auswahl von Schlüsselbildern und die Bewertung der Bedeutung von Bildern zu berechnen. Experimentelle Ergebnisse auf dem SumMe-Datensatz zeigen die Effektivität unseres vorgeschlagenen Ansatzes, der bestehende unüberwachte Methoden übertrifft und eine vergleichbare Leistung mit den neuesten überwachten Zusammenfassungstechniken erzielt. Unser Quellcode ist für Referenz auf \url{https://github.com/hcmus-thesis-gulu/TAC-SUM} verfügbar.注释:- "clustergbasierte" 应为 "clustergbasierten",以符合德语语法。- "zeitbewussten" 用于描述 "Cluster",表示这些集群考虑了时间上下文。- "Schlüsselbilder" 是 "keyframes" 的常用德语翻译。- "Bilder" 用于指代视频中的帧(frames)。修正后的版本:In dieser Arbeit stellen wir TAC-SUM vor, einen neuen und effizienten, trainingsfreien Ansatz zur Videozusammenfassung, der die Einschränkungen bestehender clustergbasierten Modelle durch die Einbeziehung zeitlicher Kontextinformationen überwindet. Unsere Methode unterteilt das Eingabevideo in zeitlich aufeinanderfolgende Segmente mit Clustering-Informationen, was es ermöglicht, zeitliches Bewusstsein in den Clustering-Prozess zu integrieren und sie von früheren clustergbasierten Zusammenfassungsmethoden abzuheben. Die resultierenden zeitbewussten Cluster werden dann verwendet, um die endgültige Zusammenfassung unter Verwendung einfacher Regeln für die Auswahl von Schlüsselbildern und die Bewertung der Bedeutung von Bildern zu berechnen. Experimentelle Ergebnisse auf dem SumMe-Datensatz zeigen die Effektivität unseres vorgeschlagenen Ansatzes: Er übertrifft bestehende unüberwachte Methoden und erreicht eine vergleichbare Leistung mit den neuesten überwachten Zusammenfassungstechniken. Unser Quellcode ist für Referenz auf \url{https://github.com/hcmus-thesis-gulu/TAC-SUM} verfügbar.