vor 6 Monaten

Zusammenfassung

Bekannte, unüberwachte Methoden zur Video-Objektsegmentierung kombinieren das RGB-Bild und den optischen Fluss mittels eines zweistromigen Netzwerks. Allerdings sind sie nicht in der Lage, störende Rauschsignale in jeder Eingabemodalität zu bewältigen, die die Leistung des Modells erheblich verschlechtern können. Wir schlagen vor, die Korrespondenz zwischen den Eingabemodalitäten herzustellen, während gleichzeitig störende Signale durch optimale strukturelle Anpassung unterdrückt werden. Gegeben einen Videoframe extrahieren wir dichte lokale Merkmale aus dem RGB-Bild und dem optischen Fluss und behandeln diese als zwei komplexe strukturierte Darstellungen. Anschließend wird die Wasserstein-Distanz verwendet, um globale optimale Flüsse zu berechnen, die die Merkmale einer Modalität in die andere transportieren, wobei die Größe jedes Flusses das Ausmaß der Ausrichtung zwischen zwei lokalen Merkmalen misst. Um die strukturelle Anpassung in ein zweistromiges Netzwerk für end-to-end-Training zu integrieren, faktorisieren wir die Eingabekostenmatrix in kleine räumliche Blöcke und entwickeln ein differenzierbares, lang-kurz-Sinkhorn-Modul, das aus einer langdistanzorientierten und einer kurzdistanzorientierten Sinkhorn-Schicht besteht. Wir integrieren dieses Modul in ein spezialisiertes zweistromiges Netzwerk und nennen unser Modell TransportNet. Unsere Experimente zeigen, dass die Ausrichtung von Bewegung und Erscheinung state-of-the-art-Ergebnisse auf den gängigen Datensätzen zur Video-Objektsegmentierung erzielt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Videobegreifen

Semantische Segmentierung

Multimodal

Computervision

Aufgabe

Bo Liu Qingshan Liu Dong Liu Zicheng Zhao Kaihua Zhang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Videobegreifen

Semantische Segmentierung

Multimodal

Computervision

Aufgabe

Bo Liu Qingshan Liu Dong Liu Zicheng Zhao Kaihua Zhang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Deep Transport Network für die überwachungsfreie Video-Objektsegmentierung

Bo Liu Qingshan Liu Dong Liu Zicheng Zhao Kaihua Zhang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Deep Transport Network für die überwachungsfreie Video-Objektsegmentierung

Bo Liu Qingshan Liu Dong Liu Zicheng Zhao Kaihua Zhang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Deep Transport Network für die überwachungsfreie Video-Objektsegmentierung

Bo Liu Qingshan Liu Dong Liu Zicheng Zhao Kaihua Zhang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters