HyperAIHyperAI

Command Palette

Search for a command to run...

VLCap: Vision-Language mit kontrastivem Lernen für kohärente Video-Paragraph-Kommentierung

Kashu Yamazaki Sang Truong Khoa Vo Michael Kidd Chase Rainwater Khoa Luu Ngan Le

Zusammenfassung

In diesem Paper nutzen wir den menschlichen Wahrnehmungsprozess, der die Interaktion zwischen Vision und Sprache beinhaltet, um eine kohärente Absatzbeschreibung ungeschnittener Videos zu generieren. Wir schlagen vision-sprache-(VL-)Merkmale vor, die aus zwei Modalitäten bestehen: (i) der Vision-Modality zur Erfassung des globalen visuellen Inhalts der gesamten Szene und (ii) der Sprach-Modality zur Extraktion von Beschreibungen von Szene-Elementen sowohl menschlicher als auch nicht-menschlicher Objekte (z. B. Tiere, Fahrzeuge usw.) sowie visueller und nicht-visueller Elemente (z. B. Relationen, Aktivitäten usw.). Darüber hinaus schlagen wir vor, unser vorgeschlagenes VLCap unter Verwendung einer kontrastiven Lern-VL-Verlustfunktion zu trainieren. Experimente und Ablationsstudien auf den Datensätzen ActivityNet Captions und YouCookII zeigen, dass unser VLCap sowohl hinsichtlich der Genauigkeit als auch der Vielfalt die bestehenden State-of-the-Art-Methoden übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp