UniRef++: Segmentieren Sie jedes Referenzobjekt in räumlichen und zeitlichen Räumen

Die auf Referenzen basierenden Aufgaben der Objektsegmentierung – nämlich referring image segmentation (RIS), few-shot image segmentation (FSS), referring video object segmentation (RVOS) und video object segmentation (VOS) – zielen darauf ab, ein spezifisches Objekt durch die Nutzung von Sprachbeschreibungen oder annotierten Masken als Referenz zu segmentieren. Trotz erheblicher Fortschritte in jedem einzelnen Bereich sind die derzeitigen Methoden spezifisch für jeweils eine Aufgabe ausgelegt und in unterschiedliche Richtungen entwickelt worden, was die Aktivierung multimodaler, mehrfach nutzbarer Fähigkeiten für diese Aufgaben erschwert. In dieser Arbeit beenden wir die derzeitige fragmentierte Situation und stellen UniRef++ vor, ein einheitliches Architekturkonzept, das die vier auf Referenzen basierenden Aufgaben der Objektsegmentierung in einer einzigen Architektur vereint. Im Zentrum unseres Ansatzes steht der vorgeschlagene UniFusion-Modul, der eine Multiway-Fusion für die Behandlung unterschiedlicher Aufgaben unter Berücksichtigung ihrer jeweiligen Referenzen durchführt. Anschließend wird eine einheitliche Transformer-Architektur eingesetzt, um Segmentierungen auf Instanzebene zu erreichen. Durch diese einheitliche Gestaltung kann UniRef++ gemeinsam auf einer breiten Palette von Benchmarks trainiert werden und zur Laufzeit flexibel mehrere Aufgaben erfüllen, indem die entsprechenden Referenzen angegeben werden. Wir evaluieren unsere vereinheitlichten Modelle an verschiedenen Benchmarks. Ausführliche experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes UniRef++ sowohl auf RIS als auch auf RVOS die derzeit beste Leistung erzielt und auf FSS und VOS mit einem parametergeteilten Netzwerk konkurrenzfähig abschneidet. Darüber hinaus demonstrieren wir, dass der vorgeschlagene UniFusion-Modul problemlos in den aktuellen fortschrittlichen Grundmodell SAM integriert werden kann und durch parameter-effizientes Fine-Tuning zufriedenstellende Ergebnisse liefert. Der Quellcode und die Modelle sind unter \url{https://github.com/FoundationVision/UniRef} verfügbar.