VLCap: Vision-Language mit kontrastivem Lernen für kohärente Video-Paragraph-Kommentierung

In diesem Paper nutzen wir den menschlichen Wahrnehmungsprozess, der die Interaktion zwischen Vision und Sprache beinhaltet, um eine kohärente Absatzbeschreibung ungeschnittener Videos zu generieren. Wir schlagen vision-sprache-(VL-)Merkmale vor, die aus zwei Modalitäten bestehen: (i) der Vision-Modality zur Erfassung des globalen visuellen Inhalts der gesamten Szene und (ii) der Sprach-Modality zur Extraktion von Beschreibungen von Szene-Elementen sowohl menschlicher als auch nicht-menschlicher Objekte (z. B. Tiere, Fahrzeuge usw.) sowie visueller und nicht-visueller Elemente (z. B. Relationen, Aktivitäten usw.). Darüber hinaus schlagen wir vor, unser vorgeschlagenes VLCap unter Verwendung einer kontrastiven Lern-VL-Verlustfunktion zu trainieren. Experimente und Ablationsstudien auf den Datensätzen ActivityNet Captions und YouCookII zeigen, dass unser VLCap sowohl hinsichtlich der Genauigkeit als auch der Vielfalt die bestehenden State-of-the-Art-Methoden übertrifft.