NarrativeBridge: Verbesserung der Videozusammenfassung durch kausale-zeitliche Erzählstruktur

Bekannte Benchmarks und Modelle für Video-Captioning fehlen eine kausal-zeitliche Erzählstruktur, also Folgen von Ereignissen, die über Ursache-Wirkungs-Beziehungen miteinander verbunden sind, sich über die Zeit entwickeln und durch Charaktere oder Agenten getrieben werden. Dieser Mangel an Erzählstruktur beschränkt die Fähigkeit von Modellen, Textbeschreibungen zu generieren, die die inhärenten kausal-zeitlichen Dynamiken in Videoinhalten adäquat erfassen. Um diese Lücke zu schließen, stellen wir NarrativeBridge vor, einen Ansatz, der aus zwei Komponenten besteht: (1) einem neuartigen Causal-Temporal Narrative (CTN)-Caption-Benchmark, der mittels eines großen Sprachmodells und Few-Shot-Prompting generiert wurde und explizit Ursache-Wirkungs-Beziehungen im zeitlichen Verlauf in Video-Beschreibungen kodiert; sowie (2) einem Cause-Effect-Netzwerk (CEN) mit getrennten Encodern zur Erfassung von Ursachen- und Wirkungsdynamiken, das eine effektive Lern- und Generierung von Caption-Texten mit kausal-zeitlicher Erzählstruktur ermöglicht. Ausführliche Experimente zeigen, dass CEN state-of-the-art-Modelle erheblich übertrifft, was die Formulierung kausal-zeitlicher Aspekte von Videoinhalten betrifft: 17,88 und 17,44 CIDEr-Werte auf den Datensätzen MSVD-CTN und MSRVTT-CTN, jeweils. Kreuz-Datensatz-Evaluierungen unterstreichen zudem die starke Generalisierungsfähigkeit von CEN. Der vorgeschlagene Rahmen versteht und generiert fein abgestimmte Textbeschreibungen mit komplexen kausal-zeitlichen Erzählstrukturen, die in Videos vorkommen, und löst damit eine zentrale Einschränkung im Bereich des Video-Captioning. Weitere Projektinformationen finden Sie unter https://narrativebridge.github.io/.