Globale Objektvorschläge zur Verbesserung mehrsätzig erzeugter Videobeschreibungen
In den letzten Jahren wurde erheblicher Fortschritt bei der Bildbeschreibung erzielt. Die Generierung von Videobeschreibungen befindet sich dagegen noch in den Anfängen; dies liegt an der komplexen Natur von Videos im Vergleich zu Bildern. Die Erzeugung von absatzartigen Beschreibungen für Videos ist noch herausfordernder. Zu den zentralen Problemen zählen zeitliche Objektabhängigkeiten sowie komplexe Objekt-Objekt-Beziehungen. In jüngster Zeit wurden zahlreiche Ansätze zur Generierung mehrsatziger Videobeschreibungen vorgeschlagen. Die überwiegende Mehrheit dieser Ansätze basiert auf einem zweistufigen Ansatz: 1) Ereignisvorschläge und 2) Caption-Generierung. Obwohl diese Ansätze gute Ergebnisse erzielen, verpassen sie globale Informationen, die im gesamten Video verfügbar sind. In diesem Beitrag schlagen wir die Verwendung globaler Objektvorschläge während der Generierung von Videocaptions vor. Experimentelle Ergebnisse auf dem ActivityNet-Datensatz zeigen, dass die Nutzung globaler Objektvorschläge zu informativeren und korrekteren Captions führt. Zudem stellen wir drei Metriken vor, um die Objekterkennungsfähigkeit des Generators zu bewerten. Eine qualitative Vergleichsanalyse der von unserem Ansatz generierten Captions mit denen state-of-the-art-Techniken bestätigt die Wirksamkeit des vorgeschlagenen Verfahrens.