Mehrquellen-Fusion und automatische Selektion von Prädiktoren für Zero-Shot-Videosegmentierung

Ort und Erscheinung sind die entscheidenden Hinweise für die Segmentierung von Videoobjekten. Viele Quellen wie RGB, Tiefeninformation, optischer Fluss und statische Salienz können nützliche Informationen über die Objekte liefern. Bestehende Ansätze nutzen jedoch nur RGB oder RGB und optischen Fluss. In dieser Arbeit schlagen wir ein neues Multi-Quellen-Fusionsnetzwerk für die Segmentierung von Videoobjekten ohne vorherige Kenntnis (Zero-Shot) vor. Mit Hilfe des intrazeptiven räumlichen Aufmerksamkeitsmoduls (Interoceptive Spatial Attention Module, ISAM) wird die räumliche Bedeutung jeder Quelle hervorgehoben. Darüber hinaus entwickeln wir ein Feature-Purifikationsmodul (Feature Purification Module, FPM), um inkompatible Merkmale zwischen den Quellen zu filtern. Durch ISAM und FPM werden die Multi-Quellen-Merkmale effektiv zusammengeführt. Zudem stellen wir ein Netzwerk zur automatischen Auswahl von Prädiktoren (Automatic Predictor Selection Network, APS) vor, das entweder die bessere Vorhersage des statischen Salienzprädiktors oder des bewegten Objektprädiktors auswählt, um eine Überabhängigkeit von fehlerhaften Ergebnissen aufgrund niedriger Qualität der optischen Flusskarten zu vermeiden. Ausführliche Experimente auf drei anspruchsvollen öffentlichen Benchmarks (d.h. DAVIS$_{16}$, Youtube-Objects und FBMS) zeigen, dass das vorgeschlagene Modell gegenüber dem Stand der Technik überzeugende Leistungen erzielt. Der Quellcode wird öffentlich verfügbar sein unter \textcolor{red}{\url{https://github.com/Xiaoqi-Zhao-DLUT/Multi-Source-APS-ZVOS}}.