vor 7 Tagen

Adaptive räumlich-zeitliche Aufmerksamkeit für vielfältige Videobeschreibung

Zohreh Ghaderi, Leonard Salewski, Hendrik P. A. Lensch

Abstract

Um geeignete Untertitel für Videos zu generieren, muss die Inferenz relevante Konzepte identifizieren und sowohl auf räumliche Beziehungen zwischen diesen als auch auf die zeitliche Entwicklung innerhalb des Clips achten. Unser end-to-end-Encoder-Decoder-Rahmenwerk für Video-Untertitel nutzt zwei auf Transformers basierende Architekturen: einen angepassten Transformer für die gemeinsame räumlich-zeitliche Analyse von Videos sowie einen auf Selbst-Attention basierenden Decoder zur fortgeschrittenen Textgenerierung. Zudem führen wir ein adaptives Frame-Auswahlverfahren ein, um die Anzahl der benötigten Eingabebilder zu reduzieren, ohne dabei den relevanten Inhalt während des Trainings beider Transformer zu beeinträchtigen. Außerdem schätzen wir semantische Konzepte, die für die Video-Untertitelgenerierung relevant sind, durch Aggregation aller Ground-Truth-Untertitel jedes Samples ab. Unser Ansatz erreicht state-of-the-art-Ergebnisse auf den MSVD-, sowie auf den großskaligen MSR-VTT- und VATEX-Benchmark-Datensätzen unter Berücksichtigung mehrerer Natural Language Generation (NLG)-Metriken. Zusätzliche Bewertungen hinsichtlich der Vielfalt (Diversity-Scores) unterstreichen die Ausdruckskraft und Vielfalt der Struktur unserer generierten Untertitel.