HyperAIHyperAI
vor 3 Monaten

Segmentiere jedes Referenzobjekt in räumlichen und zeitlichen Räumen

{Ping Luo, Zehuan Yuan, Huchuan Lu, Bin Yan, Yi Jiang, Jiannan Wu}
Segmentiere jedes Referenzobjekt in räumlichen und zeitlichen Räumen
Abstract

Die auf Referenzen basierenden Aufgaben der Objektssegmentierung – nämlich referring image segmentation (RIS), referring video object segmentation (RVOS) und video object segmentation (VOS) – zielen darauf ab, ein bestimmtes Objekt durch die Nutzung von Sprachbeschreibungen oder annotierten Masken als Referenzen zu segmentieren. Trotz erheblicher Fortschritte in jedem einzelnen Bereich sind aktuelle Methoden spezifisch für ihre jeweilige Aufgabe ausgelegt und werden in unterschiedliche Richtungen entwickelt, was die Realisierung von Multi-Task-Fähigkeiten für diese Aufgaben erschwert. In dieser Arbeit beenden wir die derzeitige fragmentierte Situation und stellen UniRef vor, ein einheitliches Architekturkonzept, das die drei auf Referenzen basierenden Aufgaben der Objektssegmentierung in einer einzigen Architektur vereint. Im Kern unseres Ansatzes steht eine Multiway-Fusion, die unterschiedliche Aufgaben in Abhängigkeit ihrer spezifischen Referenzen effektiv verarbeitet. Anschließend wird eine einheitliche Transformer-Architektur eingesetzt, um Segmentation auf Instanz-Ebene durchzuführen. Durch diese einheitliche Gestaltung kann UniRef gemeinsam auf einer Vielzahl von Benchmarks trainiert werden und zur Laufzeit flexibel mehrere Aufgaben erfüllen, indem die entsprechenden Referenzen angegeben werden. Wir evaluieren das gemeinsam trainierte Netzwerk anhand verschiedener Benchmarks. Umfangreiche experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes UniRef sowohl auf RIS als auch auf RVOS den Stand der Technik erreicht und auf VOS mit einem einzigen Netzwerk konkurrenzfähig abschneidet.