Command Palette
Search for a command to run...
VLCap: Vision-Language mit kontrastivem Lernen für kohärente Video-Paragraph-Kommentierung
VLCap: Vision-Language mit kontrastivem Lernen für kohärente Video-Paragraph-Kommentierung
Kashu Yamazaki Sang Truong Khoa Vo Michael Kidd Chase Rainwater Khoa Luu Ngan Le
Zusammenfassung
In diesem Paper nutzen wir den menschlichen Wahrnehmungsprozess, der die Interaktion zwischen Vision und Sprache beinhaltet, um eine kohärente Absatzbeschreibung ungeschnittener Videos zu generieren. Wir schlagen vision-sprache-(VL-)Merkmale vor, die aus zwei Modalitäten bestehen: (i) der Vision-Modality zur Erfassung des globalen visuellen Inhalts der gesamten Szene und (ii) der Sprach-Modality zur Extraktion von Beschreibungen von Szene-Elementen sowohl menschlicher als auch nicht-menschlicher Objekte (z. B. Tiere, Fahrzeuge usw.) sowie visueller und nicht-visueller Elemente (z. B. Relationen, Aktivitäten usw.). Darüber hinaus schlagen wir vor, unser vorgeschlagenes VLCap unter Verwendung einer kontrastiven Lern-VL-Verlustfunktion zu trainieren. Experimente und Ablationsstudien auf den Datensätzen ActivityNet Captions und YouCookII zeigen, dass unser VLCap sowohl hinsichtlich der Genauigkeit als auch der Vielfalt die bestehenden State-of-the-Art-Methoden übertrifft.