HyperAIHyperAI
vor 2 Monaten

Schauspieler- und Aktion-Videosegmentierung aus einem Satz

Kirill Gavrilyuk; Amir Ghodrati; Zhenyang Li; Cees G.M. Snoek
Schauspieler- und Aktion-Videosegmentierung aus einem Satz
Abstract

Dieses Papier strebt nach einer Pixel-Level-Segmentierung von Akteuren und deren Aktionen in Videoinhalten. Im Gegensatz zu bestehenden Arbeiten, die alle eine Segmentierung aus einem festen Wortschatz von Akteur-Aktions-Paaren lernen, leiten wir die Segmentierung aus einem natürlichsprachlichen Eingabetext ab. Dies ermöglicht es, zwischen feinkörnigen Akteuren in der gleichen Oberkategorie zu unterscheiden, Akteur- und Aktionsinstanzen zu identifizieren und Paare zu segmentieren, die außerhalb des Akteur- und Aktionswortschatzes liegen. Wir schlagen ein vollkonvolutionsbasiertes Modell für die Pixel-Level-Segmentierung von Akteuren und Aktionen vor, das eine für Videos optimierte Encoder-Decoder-Architektur verwendet. Um das Potenzial der Segmentierung von Akteuren und Aktionen in Videos durch einen Satz zu zeigen, erweitern wir zwei gängige Datensätze von Akteuren und Aktionen um mehr als 7.500 natürlichsprachliche Beschreibungen. Experimente demonstrieren die Qualität der satzgesteuerten Segmentierungen, die Generalisierungsfähigkeit unseres Modells sowie dessen Vorteile gegenüber dem Stand der Technik bei traditioneller Segmentierung von Akteuren und Aktionen.

Schauspieler- und Aktion-Videosegmentierung aus einem Satz | Neueste Forschungsarbeiten | HyperAI