HyperAIHyperAI

Command Palette

Search for a command to run...

Adaptive räumlich-zeitliche Aufmerksamkeit für vielfältige Videobeschreibung

Zohreh Ghaderi Leonard Salewski Hendrik P. A. Lensch

Zusammenfassung

Um geeignete Untertitel für Videos zu generieren, muss die Inferenz relevante Konzepte identifizieren und sowohl auf räumliche Beziehungen zwischen diesen als auch auf die zeitliche Entwicklung innerhalb des Clips achten. Unser end-to-end-Encoder-Decoder-Rahmenwerk für Video-Untertitel nutzt zwei auf Transformers basierende Architekturen: einen angepassten Transformer für die gemeinsame räumlich-zeitliche Analyse von Videos sowie einen auf Selbst-Attention basierenden Decoder zur fortgeschrittenen Textgenerierung. Zudem führen wir ein adaptives Frame-Auswahlverfahren ein, um die Anzahl der benötigten Eingabebilder zu reduzieren, ohne dabei den relevanten Inhalt während des Trainings beider Transformer zu beeinträchtigen. Außerdem schätzen wir semantische Konzepte, die für die Video-Untertitelgenerierung relevant sind, durch Aggregation aller Ground-Truth-Untertitel jedes Samples ab. Unser Ansatz erreicht state-of-the-art-Ergebnisse auf den MSVD-, sowie auf den großskaligen MSR-VTT- und VATEX-Benchmark-Datensätzen unter Berücksichtigung mehrerer Natural Language Generation (NLG)-Metriken. Zusätzliche Bewertungen hinsichtlich der Vielfalt (Diversity-Scores) unterstreichen die Ausdruckskraft und Vielfalt der Struktur unserer generierten Untertitel.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Adaptive räumlich-zeitliche Aufmerksamkeit für vielfältige Videobeschreibung | Paper | HyperAI