HyperAIHyperAI

Command Palette

Search for a command to run...

Schauspieler- und Aktion-Videosegmentierung aus einem Satz

Kirill Gavrilyuk Amir Ghodrati Zhenyang Li Cees G. M. Snoek

Zusammenfassung

Dieses Papier strebt nach einer Pixel-Level-Segmentierung von Akteuren und deren Aktionen in Videoinhalten. Im Gegensatz zu bestehenden Arbeiten, die alle eine Segmentierung aus einem festen Wortschatz von Akteur-Aktions-Paaren lernen, leiten wir die Segmentierung aus einem natürlichsprachlichen Eingabetext ab. Dies ermöglicht es, zwischen feinkörnigen Akteuren in der gleichen Oberkategorie zu unterscheiden, Akteur- und Aktionsinstanzen zu identifizieren und Paare zu segmentieren, die außerhalb des Akteur- und Aktionswortschatzes liegen. Wir schlagen ein vollkonvolutionsbasiertes Modell für die Pixel-Level-Segmentierung von Akteuren und Aktionen vor, das eine für Videos optimierte Encoder-Decoder-Architektur verwendet. Um das Potenzial der Segmentierung von Akteuren und Aktionen in Videos durch einen Satz zu zeigen, erweitern wir zwei gängige Datensätze von Akteuren und Aktionen um mehr als 7.500 natürlichsprachliche Beschreibungen. Experimente demonstrieren die Qualität der satzgesteuerten Segmentierungen, die Generalisierungsfähigkeit unseres Modells sowie dessen Vorteile gegenüber dem Stand der Technik bei traditioneller Segmentierung von Akteuren und Aktionen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp