Iteratives Auswählen eines einfachen Referenzrahmens vereinfacht die unüberwachte Videoobjektsegmentierung

Die unüberwachte Video-Objekt-Segmentierung (UVOS) ist ein binäres Per-Pixel-Beschriftungsproblem, das darauf abzielt, das Vordergrundobjekt vom Hintergrund im Video zu trennen, ohne die Ground-Truth-(GT)-Maske des Vordergrundobjekts zu verwenden. Die meisten bisherigen UVOS-Modelle verwenden den ersten Frame oder das gesamte Video als Referenzframe, um die Maske des Vordergrundobjekts zu spezifizieren. Unsere Frage lautet, warum der erste Frame als Referenzframe ausgewählt werden sollte oder warum das gesamte Video verwendet werden sollte, um die Maske zu spezifizieren. Wir glauben, dass wir einen besseren Referenzframe auswählen können, um eine verbesserte UVOS-Leistung zu erzielen, anstatt nur den ersten Frame oder das gesamte Video als Referenzframe zu verwenden. In unserem Artikel schlagen wir den Easy Frame Selector (EFS) vor. Der EFS ermöglicht es uns, einen 'einfachen' Referenzframe auszuwählen, der die nachfolgende VOS vereinfacht und damit die Leistung der VOS verbessert. Des Weiteren schlagen wir einen neuen Rahmenwerk namens Iterative Mask Prediction (IMP) vor. In diesem Rahmenwerk wiederholen wir die Anwendung des EFS auf das gegebene Video und wählen in jeder Iteration einen 'noch einfacheren' Referenzframe aus dem Video als in der vorherigen Iteration, wodurch sich die Leistung der VOS schrittweise verbessert. Das IMP besteht aus EFS, Bidirektionale Maske Vorhersage (BMP) und zeitlicher Informationsaktualisierung (TIU). Mit dem vorgeschlagenen Rahmenwerk erreichen wir Spitzenleistungen in drei UVOS-Benchmarks: DAVIS16, FBMS und SegTrack-V2.