Video Narration Captioning
Video-Narration-Kaptionierung ist eine Unter-Aufgabe im Bereich der Computer Vision, die darauf abzielt, für jeden Schnitt in einem Mehrfach-Schnitt-Video die dazugehörigen Narrations-Kaptionen vorherzusagen. Diese Aufgabe führt automatische Spracherkennung (ASR)-Text als zusätzliche Eingabe ein und nutzt die gleiche Modellarchitektur wie bei der Kaptionierung von Einzelschnitt-Videos, wobei das Vorhersageziel die Narrations-Kaptionen sind. Video-Narrations-Kaptionen bieten nicht nur Hintergrundwissen, sondern spiegeln auch die Perspektive des Kommentators wider, was einen erheblichen Mehrwert für das Verständnis von Videoinhalten darstellt.