vor 6 Monaten

Zusammenfassung

Die Aufgabe der Video-Objekt-Segmentierung mit Bezugsausdrücken (sprachgesteuerte VOS) besteht darin, gegeben einen sprachlichen Ausdruck und ein Video, binäre Masken für das Objekt zu generieren, auf das sich der Ausdruck bezieht. In unserer Arbeit wird argumentiert, dass die bisher verwendeten Benchmarks für diese Aufgabe hauptsächlich aus trivialen Fällen bestehen, bei denen die Referenten mit einfachen Ausdrücken identifiziert werden können. Unsere Analyse basiert auf einer neuen Klassifizierung der Ausdrücke in den Datensätzen DAVIS-2017 und Actor-Action in triviale und nicht-triviale Bezugsausdrücke (REs), wobei die nicht-trivialen REs mit sieben semantischen Kategorien annotiert wurden. Anhand dieser Daten analysieren wir die Ergebnisse eines neuartigen neuronalen Netzwerks, RefVOS, das competitive Ergebnisse für die sprachgesteuerte Bildsegmentierung und state-of-the-art Ergebnisse für die sprachgesteuerte Video-Objekt-Segmentierung erzielt. Unsere Studie zeigt, dass die zentralen Herausforderungen dieser Aufgabe mit dem Verständnis von Bewegung und statischen Aktionen zusammenhängen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Computer Vision

Semantische Segmentierung

Multimodal

Computervision

Aufgabe

Miriam Bellver Carles Ventura Carina Silberer Ioannis Kazakos Jordi Torres Xavier Giro-i-Nieto

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Computer Vision

Semantische Segmentierung

Multimodal

Computervision

Aufgabe

Miriam Bellver Carles Ventura Carina Silberer Ioannis Kazakos Jordi Torres Xavier Giro-i-Nieto

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

RefVOS: Ein detaillierter Blick auf Bezugsausdrücke für die Video-Objekt-Segmentierung

Miriam Bellver Carles Ventura Carina Silberer Ioannis Kazakos Jordi Torres Xavier Giro-i-Nieto

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

RefVOS: Ein detaillierter Blick auf Bezugsausdrücke für die Video-Objekt-Segmentierung

Miriam Bellver Carles Ventura Carina Silberer Ioannis Kazakos Jordi Torres Xavier Giro-i-Nieto

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

RefVOS: Ein detaillierter Blick auf Bezugsausdrücke für die Video-Objekt-Segmentierung

Miriam Bellver Carles Ventura Carina Silberer Ioannis Kazakos Jordi Torres Xavier Giro-i-Nieto

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters