vor 7 Monaten

Zusammenfassung

Dieses Papier strebt nach einer Pixel-Level-Segmentierung von Akteuren und deren Aktionen in Videoinhalten. Im Gegensatz zu bestehenden Arbeiten, die alle eine Segmentierung aus einem festen Wortschatz von Akteur-Aktions-Paaren lernen, leiten wir die Segmentierung aus einem natürlichsprachlichen Eingabetext ab. Dies ermöglicht es, zwischen feinkörnigen Akteuren in der gleichen Oberkategorie zu unterscheiden, Akteur- und Aktionsinstanzen zu identifizieren und Paare zu segmentieren, die außerhalb des Akteur- und Aktionswortschatzes liegen. Wir schlagen ein vollkonvolutionsbasiertes Modell für die Pixel-Level-Segmentierung von Akteuren und Aktionen vor, das eine für Videos optimierte Encoder-Decoder-Architektur verwendet. Um das Potenzial der Segmentierung von Akteuren und Aktionen in Videos durch einen Satz zu zeigen, erweitern wir zwei gängige Datensätze von Akteuren und Aktionen um mehr als 7.500 natürlichsprachliche Beschreibungen. Experimente demonstrieren die Qualität der satzgesteuerten Segmentierungen, die Generalisierungsfähigkeit unseres Modells sowie dessen Vorteile gegenüber dem Stand der Technik bei traditioneller Segmentierung von Akteuren und Aktionen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Aktionserkennung

Semantische Segmentierung

Multimodal

Computervision

Aufgabe

Kirill Gavrilyuk Amir Ghodrati Zhenyang Li Cees G. M. Snoek

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 7 Monaten

Aktionserkennung

Semantische Segmentierung

Multimodal

Computervision

Aufgabe

Kirill Gavrilyuk Amir Ghodrati Zhenyang Li Cees G. M. Snoek

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Schauspieler- und Aktion-Videosegmentierung aus einem Satz | Paper | HyperAI

Command Palette

Schauspieler- und Aktion-Videosegmentierung aus einem Satz

Kirill Gavrilyuk Amir Ghodrati Zhenyang Li Cees G. M. Snoek

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Schauspieler- und Aktion-Videosegmentierung aus einem Satz

Kirill Gavrilyuk Amir Ghodrati Zhenyang Li Cees G. M. Snoek

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Schauspieler- und Aktion-Videosegmentierung aus einem Satz

Kirill Gavrilyuk Amir Ghodrati Zhenyang Li Cees G. M. Snoek

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters