HyperAIHyperAI

Command Palette

Search for a command to run...

Visual-Textuelle Kapselfruchtung für textbasierte Videosegmentierung

Mubarak Shah Yogesh S Rawat Kevin Duarte Bruce McIntosh

Zusammenfassung

Die gemeinsame Verarbeitung von Vision und natürlicher Sprache stellt ein anspruchsvolles Problem mit einer Vielzahl von Anwendungen im Bereich künstlicher Intelligenz dar. In dieser Arbeit konzentrieren wir uns auf die Integration von Video- und Textinformationen zur Aufgabe der Akteur- und Aktionssegmentierung in Videos anhand einer natürlichen Sprachbeschreibung. Wir stellen einen auf Capsules basierenden Ansatz vor, der eine pixelgenaue Lokalisierung auf der Grundlage einer Sprachanfrage zur Beschreibung des interessierenden Akteurs ermöglicht. Sowohl Video- als auch Texteingaben werden in Form von Capsules kodiert, wodurch eine effektivere Repräsentation im Vergleich zu herkömmlichen, auf Faltungsoperationen basierenden Merkmalen erreicht wird. Unser neuartiger visuell-textueller Routing-Mechanismus erlaubt die Fusion von Video- und Text-Capsules, um den Akteur und die Aktion erfolgreich zu lokalisieren. Bisherige Ansätze zur Akteur-Aktions-Lokalisierung beschränken sich hauptsächlich auf die Lokalisierung in einzelnen Bildern, nicht jedoch im gesamten Video. Im Gegensatz dazu schlagen wir vor, die Lokalisierung über alle Frames des Videos hinweg durchzuführen. Um das Potenzial unseres vorgeschlagenen Netzwerks für die Lokalisierung von Akteuren und Aktionen in Videos zu validieren, erweitern wir eine bestehende Akteur-Aktions-Datenbank (A2D) um Annotationen für alle Frames. Die experimentelle Bewertung belegt die Wirksamkeit unseres Capsule-Netzwerks für die textbasierte Selektion von Akteuren und Aktionen in Videos. Zudem übertrifft der vorgeschlagene Ansatz die Leistung bestehender State-of-the-Art-Verfahren für die Lokalisierung in einzelnen Bildern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp