HyperAIHyperAI

Command Palette

Search for a command to run...

F2Net: Lernen, sich auf den Vordergrund für die überwachungsfreie Videoobjektsegmentierung zu konzentrieren

Daizong Liu Dongdong Yu Changhu Wang Pan Zhou

Zusammenfassung

Obwohl auf Deep Learning basierende Methoden bei der unsupervisierten Video-Objektsegmentierung erhebliche Fortschritte erzielt haben, werden schwierige Szenarien (z. B. visuelle Ähnlichkeit, Verdeckung und Veränderung des Erscheinungsbilds) weiterhin nicht ausreichend bewältigt. Um diese Herausforderungen zu mildern, stellen wir ein neuartiges Focus on Foreground Network (F2Net) vor, das die inner- und zwischenframe-Details der Vordergrundobjekte genauer analysiert und somit die Segmentierungsgenauigkeit erheblich verbessert. Konkret besteht das vorgeschlagene Netzwerk aus drei Hauptkomponenten: einem Siamese-Encoder-Modul, einem Center-Guiding-Appearance-Diffusion-Modul sowie einem Dynamischen Informationsfusion-Modul. Zunächst nutzen wir einen Siamese-Encoder, um die Merkmalsrepräsentationen zweier zusammengehöriger Frames (Referenzframe und aktueller Frame) zu extrahieren. Anschließend wird ein Center-Guiding-Appearance-Diffusion-Modul entworfen, um sowohl die zwischenframe-merkmale (dichte Korrespondenzen zwischen Referenz- und aktuellem Frame), die innerframe-merkmale (dichte Korrespondenzen innerhalb des aktuellen Frames) als auch die ursprünglichen semantischen Merkmale des aktuellen Frames zu erfassen. Insbesondere wird eine Center-Prediction-Branch implementiert, um die zentrale Position des Vordergrundobjekts im aktuellen Frame vorherzusagen, wobei die ermittelte Zentrumsinformation als räumlicher Leitfaden genutzt wird, um die Extraktion der zwischen- und innerframe-merkmale zu verbessern. Dadurch konzentriert sich die Merkmalsrepräsentation erheblich auf die Vordergrundobjekte. Schließlich stellen wir ein Dynamisches Informationsfusion-Modul vor, das automatisch die relevantesten Merkmale aus den drei unterschiedlichen Ebenen auswählt. Umfangreiche Experimente auf den Datensätzen DAVIS2016, Youtube-Object und FBMS zeigen, dass das vorgeschlagene F2Net eine state-of-the-art-Leistung erzielt und dabei eine signifikante Verbesserung gegenüber bestehenden Ansätzen erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
F2Net: Lernen, sich auf den Vordergrund für die überwachungsfreie Videoobjektsegmentierung zu konzentrieren | Paper | HyperAI