Visual-Textuelle Kapselfruchtung für textbasierte Videosegmentierung

Die gemeinsame Verarbeitung von Vision und natürlicher Sprache stellt ein anspruchsvolles Problem mit einer Vielzahl von Anwendungen im Bereich künstlicher Intelligenz dar. In dieser Arbeit konzentrieren wir uns auf die Integration von Video- und Textinformationen zur Aufgabe der Akteur- und Aktionssegmentierung in Videos anhand einer natürlichen Sprachbeschreibung. Wir stellen einen auf Capsules basierenden Ansatz vor, der eine pixelgenaue Lokalisierung auf der Grundlage einer Sprachanfrage zur Beschreibung des interessierenden Akteurs ermöglicht. Sowohl Video- als auch Texteingaben werden in Form von Capsules kodiert, wodurch eine effektivere Repräsentation im Vergleich zu herkömmlichen, auf Faltungsoperationen basierenden Merkmalen erreicht wird. Unser neuartiger visuell-textueller Routing-Mechanismus erlaubt die Fusion von Video- und Text-Capsules, um den Akteur und die Aktion erfolgreich zu lokalisieren. Bisherige Ansätze zur Akteur-Aktions-Lokalisierung beschränken sich hauptsächlich auf die Lokalisierung in einzelnen Bildern, nicht jedoch im gesamten Video. Im Gegensatz dazu schlagen wir vor, die Lokalisierung über alle Frames des Videos hinweg durchzuführen. Um das Potenzial unseres vorgeschlagenen Netzwerks für die Lokalisierung von Akteuren und Aktionen in Videos zu validieren, erweitern wir eine bestehende Akteur-Aktions-Datenbank (A2D) um Annotationen für alle Frames. Die experimentelle Bewertung belegt die Wirksamkeit unseres Capsule-Netzwerks für die textbasierte Selektion von Akteuren und Aktionen in Videos. Zudem übertrifft der vorgeschlagene Ansatz die Leistung bestehender State-of-the-Art-Verfahren für die Lokalisierung in einzelnen Bildern.