HyperAIHyperAI

Command Palette

Search for a command to run...

VLTinT: Visual-Linguistic Transformer-in-Transformer für kohärente Video-Paragraph-Kommentierung

Kashu Yamazaki Khoa Vo Sang Truong Bhiksha Raj Ngan Le

Zusammenfassung

Die Video-Paragraph-Kommentierung zielt darauf ab, eine mehrsatzige Beschreibung eines ungeschnittenen Videos mit mehreren zeitlichen Ereignispositionen in einer kohärenten Erzählweise zu generieren. Anhand des menschlichen Wahrnehmungsprozesses, bei dem die Szene effektiv durch Zerlegung in visuelle (z. B. Menschen, Tiere) und nicht-visuelle Komponenten (z. B. Aktionen, Relationen) unter gegenseitiger Beeinflussung von Vision und Sprache verstanden wird, stellen wir zunächst ein visuell-linguistisches (VL) Merkmal vor. In dem vorgeschlagenen VL-Merkmal wird die Szene durch drei Modalitäten modelliert: (i) eine globale visuelle Umgebung; (ii) lokale visuelle Hauptagenten; (iii) sprachliche Szenelemente. Anschließend führen wir einen autoregressiven Transformer-in-Transformer (TinT) ein, um gleichzeitig die semantische Kohärenz innerhalb und zwischen Ereignissen innerhalb eines Videos zu erfassen. Schließlich präsentieren wir eine neue VL-Kontrastverlustfunktion, um sicherzustellen, dass die gelernten Embedding-Merkmale mit der Semantik der Beschreibungen übereinstimmen. Umfassende Experimente und umfangreiche Ablationsstudien auf den Datensätzen ActivityNet Captions und YouCookII zeigen, dass der vorgeschlagene Visual-Linguistic Transformer-in-Transformer (VLTinT) die vorherigen Stand der Technik in Bezug auf Genauigkeit und Vielfalt übertrifft. Der Quellcode ist öffentlich unter folgender URL verfügbar: https://github.com/UARK-AICV/VLTinT.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VLTinT: Visual-Linguistic Transformer-in-Transformer für kohärente Video-Paragraph-Kommentierung | Paper | HyperAI