vor 8 Tagen

VLTinT: Visual-Linguistic Transformer-in-Transformer für kohärente Video-Paragraph-Kommentierung

Kashu Yamazaki, Khoa Vo, Sang Truong, Bhiksha Raj, Ngan Le

Abstract

Die Video-Paragraph-Kommentierung zielt darauf ab, eine mehrsatzige Beschreibung eines ungeschnittenen Videos mit mehreren zeitlichen Ereignispositionen in einer kohärenten Erzählweise zu generieren. Anhand des menschlichen Wahrnehmungsprozesses, bei dem die Szene effektiv durch Zerlegung in visuelle (z. B. Menschen, Tiere) und nicht-visuelle Komponenten (z. B. Aktionen, Relationen) unter gegenseitiger Beeinflussung von Vision und Sprache verstanden wird, stellen wir zunächst ein visuell-linguistisches (VL) Merkmal vor. In dem vorgeschlagenen VL-Merkmal wird die Szene durch drei Modalitäten modelliert: (i) eine globale visuelle Umgebung; (ii) lokale visuelle Hauptagenten; (iii) sprachliche Szenelemente. Anschließend führen wir einen autoregressiven Transformer-in-Transformer (TinT) ein, um gleichzeitig die semantische Kohärenz innerhalb und zwischen Ereignissen innerhalb eines Videos zu erfassen. Schließlich präsentieren wir eine neue VL-Kontrastverlustfunktion, um sicherzustellen, dass die gelernten Embedding-Merkmale mit der Semantik der Beschreibungen übereinstimmen. Umfassende Experimente und umfangreiche Ablationsstudien auf den Datensätzen ActivityNet Captions und YouCookII zeigen, dass der vorgeschlagene Visual-Linguistic Transformer-in-Transformer (VLTinT) die vorherigen Stand der Technik in Bezug auf Genauigkeit und Vielfalt übertrifft. Der Quellcode ist öffentlich unter folgender URL verfügbar: https://github.com/UARK-AICV/VLTinT.