HyperAIHyperAI

Command Palette

Search for a command to run...

Globale Objektvorschläge zur Verbesserung mehrsätzig erzeugter Videobeschreibungen

Pushpak Bhattacharyya Sriparna Saha Chandresh S. Kanani

Zusammenfassung

In den letzten Jahren wurde erheblicher Fortschritt bei der Bildbeschreibung erzielt. Die Generierung von Videobeschreibungen befindet sich dagegen noch in den Anfängen; dies liegt an der komplexen Natur von Videos im Vergleich zu Bildern. Die Erzeugung von absatzartigen Beschreibungen für Videos ist noch herausfordernder. Zu den zentralen Problemen zählen zeitliche Objektabhängigkeiten sowie komplexe Objekt-Objekt-Beziehungen. In jüngster Zeit wurden zahlreiche Ansätze zur Generierung mehrsatziger Videobeschreibungen vorgeschlagen. Die überwiegende Mehrheit dieser Ansätze basiert auf einem zweistufigen Ansatz: 1) Ereignisvorschläge und 2) Caption-Generierung. Obwohl diese Ansätze gute Ergebnisse erzielen, verpassen sie globale Informationen, die im gesamten Video verfügbar sind. In diesem Beitrag schlagen wir die Verwendung globaler Objektvorschläge während der Generierung von Videocaptions vor. Experimentelle Ergebnisse auf dem ActivityNet-Datensatz zeigen, dass die Nutzung globaler Objektvorschläge zu informativeren und korrekteren Captions führt. Zudem stellen wir drei Metriken vor, um die Objekterkennungsfähigkeit des Generators zu bewerten. Eine qualitative Vergleichsanalyse der von unserem Ansatz generierten Captions mit denen state-of-the-art-Techniken bestätigt die Wirksamkeit des vorgeschlagenen Verfahrens.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp