HyperAIHyperAI

Command Palette

Search for a command to run...

UniRef++: Segmentieren Sie jedes Referenzobjekt in räumlichen und zeitlichen Räumen

Jiannan Wu Yi Jiang Bin Yan Huchuan Lu Zehuan Yuan Ping Luo

Zusammenfassung

Die auf Referenzen basierenden Aufgaben der Objektsegmentierung – nämlich referring image segmentation (RIS), few-shot image segmentation (FSS), referring video object segmentation (RVOS) und video object segmentation (VOS) – zielen darauf ab, ein spezifisches Objekt durch die Nutzung von Sprachbeschreibungen oder annotierten Masken als Referenz zu segmentieren. Trotz erheblicher Fortschritte in jedem einzelnen Bereich sind die derzeitigen Methoden spezifisch für jeweils eine Aufgabe ausgelegt und in unterschiedliche Richtungen entwickelt worden, was die Aktivierung multimodaler, mehrfach nutzbarer Fähigkeiten für diese Aufgaben erschwert. In dieser Arbeit beenden wir die derzeitige fragmentierte Situation und stellen UniRef++ vor, ein einheitliches Architekturkonzept, das die vier auf Referenzen basierenden Aufgaben der Objektsegmentierung in einer einzigen Architektur vereint. Im Zentrum unseres Ansatzes steht der vorgeschlagene UniFusion-Modul, der eine Multiway-Fusion für die Behandlung unterschiedlicher Aufgaben unter Berücksichtigung ihrer jeweiligen Referenzen durchführt. Anschließend wird eine einheitliche Transformer-Architektur eingesetzt, um Segmentierungen auf Instanzebene zu erreichen. Durch diese einheitliche Gestaltung kann UniRef++ gemeinsam auf einer breiten Palette von Benchmarks trainiert werden und zur Laufzeit flexibel mehrere Aufgaben erfüllen, indem die entsprechenden Referenzen angegeben werden. Wir evaluieren unsere vereinheitlichten Modelle an verschiedenen Benchmarks. Ausführliche experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes UniRef++ sowohl auf RIS als auch auf RVOS die derzeit beste Leistung erzielt und auf FSS und VOS mit einem parametergeteilten Netzwerk konkurrenzfähig abschneidet. Darüber hinaus demonstrieren wir, dass der vorgeschlagene UniFusion-Modul problemlos in den aktuellen fortschrittlichen Grundmodell SAM integriert werden kann und durch parameter-effizientes Fine-Tuning zufriedenstellende Ergebnisse liefert. Der Quellcode und die Modelle sind unter \url{https://github.com/FoundationVision/UniRef} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp