RANet: Rangierungs-Aufmerksamkeits-Netzwerk für schnelle Videoobjektsegmentierung

Trotz der Verbesserungen, die Online-Lernverfahren (OL) in der Leistung von semi-überwachten Video-Objekt-Segmentierungsmethoden (VOS) erbracht haben, beschränken die hohen Zeitkosten des OL ihre Praktikabilität stark. Methoden auf Basis von Zuordnung und Propagation erreichen eine schnellere Geschwindigkeit, indem sie OL-Techniken vermeiden. Allerdings sind sie durch Fehlzuordnungs- und Driftprobleme auf eine suboptimale Genauigkeit begrenzt. In dieser Arbeit entwickeln wir ein Echtzeit-Ranking-Aufmerksamkeitsnetzwerk (RANet), das sehr genaue Ergebnisse für VOS liefert. Insbesondere, um die Erkenntnisse von Zuordnungs- und Propagation-basierten Methoden zu integrieren, verwenden wir ein Encoder-Decoder-Framework, um die Pixel-Level-Ähnlichkeit und -Segmentierung in einem end-to-end-Prozess zu lernen. Um die Ähnlichkeitskarten besser zu nutzen, schlagen wir ein neuartiges Ranking-Aufmerksamkeitsmodul vor, das diese Karten automatisch rangiert und auswählt, um detaillierte VOS-Leistungen zu erzielen. Experimente mit den Datensätzen DAVIS-16 und DAVIS-17 zeigen, dass unser RANet das beste Verhältnis zwischen Geschwindigkeit und Genauigkeit erreicht, z.B. mit 33 Millisekunden pro Frame und J&F=85,5% bei DAVIS-16. Mit OL erreicht unser RANet bei DAVIS-16 einen J&F-Wert von 87,1%, was den Stand der Technik in VOS-METHODEN übertrifft. Der Quellcode ist unter https://github.com/Storife/RANet verfügbar.