HyperAIHyperAI
vor 2 Monaten

Ein einheitliches Transformer-Framework für gruppenbasierte Segmentierung: Co-Segmentierung, Co-Salienzerkennung und Videosalientenobjekterkennung

Su, Yukun ; Deng, Jingliang ; Sun, Ruizhou ; Lin, Guosheng ; Wu, Qingyao
Ein einheitliches Transformer-Framework für gruppenbasierte Segmentierung:
  Co-Segmentierung, Co-Salienzerkennung und Videosalientenobjekterkennung
Abstract

Menschen neigen dazu, Objekte durch das Lernen aus einer Gruppe von Bildern oder mehreren Video Frames zu erfassen, da wir in einer dynamischen Welt leben. Im Bereich der Computer Vision konzentrieren sich viele Forschungen auf die gemeinsame Segmentierung (CoS), die gemeinsame Salienzenerkennung (CoSD) und die Erkennung von prominenten Objekten in Videos (VSOD), um gleichzeitig auftretende Objekte zu identifizieren. Bislang wurden jedoch für diese ähnlichen Aufgaben unterschiedliche Netzwerke entwickelt, was ihre gegenseitige Anwendbarkeit erschwert und den Transfertiefgang tief lernender Frameworks verringert. Zudem gelingt es ihnen nicht, die Hinweise zwischen den inner- und zwischen-featuren innerhalb einer Gruppe von Bildern vollständig zu nutzen.In dieser Arbeit stellen wir ein einheitliches Framework vor, das diese Probleme löst und als UFO (Unified Framework for Co-Object Segmentation) bezeichnet wird. Insbesondere führen wir zunächst einen Transformer Block ein, der das Bildmerkmal als Patch-Token betrachtet und dann durch den Selbst-Aufmerksamkeitsmechanismus deren langreichweitige Abhängigkeiten erfasst. Dies kann dem Netzwerk helfen, strukturierte Ähnlichkeiten zwischen den relevanten Objekten zu eruieren. Darüber hinaus schlagen wir ein intra-MLP-Lernmodul vor, um eine Selbstmaske zu erzeugen, die das Netzwerk unterstützt, partielle Aktivierungen zu vermeiden.Ausführliche Experimente auf vier CoS-Benchmarks (PASCAL, iCoseg, Internet und MSRC), drei CoSD-Benchmarks (Cosal2015, CoSOD3k und CocA) sowie vier VSOD-Benchmarks (DAVIS16, FBMS, ViSal und SegV2) zeigen, dass unsere Methode in Genauigkeit und Geschwindigkeit bei allen drei verschiedenen Aufgaben anderen Stand der Technik überlegen ist, indem sie dieselbe Netzwerkarchitektur verwendet. Sie erreicht dabei eine Echtzeitgeschwindigkeit von 140 FPS.