vor 6 Monaten

Zusammenfassung

Diese Arbeit untersucht die Referenz-Videoobjektsegmentierung (RVOS), indem sie die visuell-linguistische Ausrichtung auf Videoebene verstärkt. Moderne Ansätze modellieren die RVOS-Aufgabe als ein Sequenzvorhersageproblem und führen für jeden Frame getrennt multimodale Interaktionen sowie Segmentierung durch. Allerdings führt das Fehlen einer globalen Sicht auf den Videoinhalt zu Schwierigkeiten bei der effektiven Nutzung von Beziehungen zwischen Frames sowie bei der Verständnis von Textbeschreibungen hinsichtlich zeitlicher Veränderungen von Objekten. Um dieses Problem anzugehen, schlagen wir Semantic-assisted Object Cluster (SOC) vor, welches Videoinhalte und sprachliche Anleitungen zur einheitlichen zeitlichen Modellierung und kreuzmodalen Ausrichtung aggregiert. Durch die Assoziation einer Gruppe von framebasierten Objekt-Embeddings mit Sprachtokens ermöglicht SOC eine gemeinsame Lernung im Raum über Modalitäten und Zeitschritte hinweg. Darüber hinaus präsentieren wir eine multimodale kontrastive Supervision, um einen gut ausgerichteten gemeinsamen Raum auf Videoebene zu fördern. Wir führen umfangreiche Experimente auf etablierten RVOS-Benchmarks durch und zeigen, dass unsere Methode gegenüber allen bisherigen Spitzenverfahren signifikant besser abschneidet. Zudem verbessert die Betonung der zeitlichen Kohärenz die Stabilität und Anpassungsfähigkeit unserer Methode bei der Verarbeitung von Textausdrücken mit zeitlichen Variationen. Der Quellcode wird verfügbar gemacht.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Multimodale Darstellung

Semantische Segmentierung

Multimodal

Computervision

Aufgabe

Zhuoyan Luo Yicheng Xiao Yong Liu Shuyan Li Yitong Wang Yansong Tang Xiu Li Yujiu Yang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Multimodale Darstellung

Semantische Segmentierung

Multimodal

Computervision

Aufgabe

Zhuoyan Luo Yicheng Xiao Yong Liu Shuyan Li Yitong Wang Yansong Tang Xiu Li Yujiu Yang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

SOC: Semantic-Assisted Object Cluster für die Bezugsvideobjektssegmentierung

Zhuoyan Luo Yicheng Xiao Yong Liu Shuyan Li Yitong Wang Yansong Tang Xiu Li Yujiu Yang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SOC: Semantic-Assisted Object Cluster für die Bezugsvideobjektssegmentierung

Zhuoyan Luo Yicheng Xiao Yong Liu Shuyan Li Yitong Wang Yansong Tang Xiu Li Yujiu Yang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SOC: Semantic-Assisted Object Cluster für die Bezugsvideobjektssegmentierung

Zhuoyan Luo Yicheng Xiao Yong Liu Shuyan Li Yitong Wang Yansong Tang Xiu Li Yujiu Yang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters