HyperAI

Video-Narration-Kaptionierung ist eine Unter-Aufgabe im Bereich der Computer Vision, die darauf abzielt, für jeden Schnitt in einem Mehrfach-Schnitt-Video die dazugehörigen Narrations-Kaptionen vorherzusagen. Diese Aufgabe führt automatische Spracherkennung (ASR)-Text als zusätzliche Eingabe ein und nutzt die gleiche Modellarchitektur wie bei der Kaptionierung von Einzelschnitt-Videos, wobei das Vorhersageziel die Narrations-Kaptionen sind. Video-Narrations-Kaptionen bieten nicht nur Hintergrundwissen, sondern spiegeln auch die Perspektive des Kommentators wider, was einen erheblichen Mehrwert für das Verständnis von Videoinhalten darstellt.

Shot2Story20K

Ours

HyperAI

Shot2Story20K

Ours

Command Palette

Videoerzählungsbildunterschriftung

Command Palette

Videoerzählungsbildunterschriftung

Command Palette

Videoerzählungsbildunterschriftung