F2Net: Lernen, sich auf den Vordergrund für die überwachungsfreie Videoobjektsegmentierung zu konzentrieren

Obwohl auf Deep Learning basierende Methoden bei der unsupervisierten Video-Objektsegmentierung erhebliche Fortschritte erzielt haben, werden schwierige Szenarien (z. B. visuelle Ähnlichkeit, Verdeckung und Veränderung des Erscheinungsbilds) weiterhin nicht ausreichend bewältigt. Um diese Herausforderungen zu mildern, stellen wir ein neuartiges Focus on Foreground Network (F2Net) vor, das die inner- und zwischenframe-Details der Vordergrundobjekte genauer analysiert und somit die Segmentierungsgenauigkeit erheblich verbessert. Konkret besteht das vorgeschlagene Netzwerk aus drei Hauptkomponenten: einem Siamese-Encoder-Modul, einem Center-Guiding-Appearance-Diffusion-Modul sowie einem Dynamischen Informationsfusion-Modul. Zunächst nutzen wir einen Siamese-Encoder, um die Merkmalsrepräsentationen zweier zusammengehöriger Frames (Referenzframe und aktueller Frame) zu extrahieren. Anschließend wird ein Center-Guiding-Appearance-Diffusion-Modul entworfen, um sowohl die zwischenframe-merkmale (dichte Korrespondenzen zwischen Referenz- und aktuellem Frame), die innerframe-merkmale (dichte Korrespondenzen innerhalb des aktuellen Frames) als auch die ursprünglichen semantischen Merkmale des aktuellen Frames zu erfassen. Insbesondere wird eine Center-Prediction-Branch implementiert, um die zentrale Position des Vordergrundobjekts im aktuellen Frame vorherzusagen, wobei die ermittelte Zentrumsinformation als räumlicher Leitfaden genutzt wird, um die Extraktion der zwischen- und innerframe-merkmale zu verbessern. Dadurch konzentriert sich die Merkmalsrepräsentation erheblich auf die Vordergrundobjekte. Schließlich stellen wir ein Dynamisches Informationsfusion-Modul vor, das automatisch die relevantesten Merkmale aus den drei unterschiedlichen Ebenen auswählt. Umfangreiche Experimente auf den Datensätzen DAVIS2016, Youtube-Object und FBMS zeigen, dass das vorgeschlagene F2Net eine state-of-the-art-Leistung erzielt und dabei eine signifikante Verbesserung gegenüber bestehenden Ansätzen erreicht.