Pixel-Level Bijective Matching for Video Object Segmentation

Semi-supervised Video Object Segmentation (VOS) zielt darauf ab, die vorgegebenen Objekte in der ersten Frame eines Videos auf Pixel-Ebene zu verfolgen. Um die Erscheinungsinformationen eines Objekts vollständig auszunutzen, wird in der Regel eine pixelgenaue Merkmalsübereinstimmung in VOS eingesetzt. Herkömmliche Merkmalsübereinstimmung erfolgt surjektiv, d.h., es werden lediglich die besten Übereinstimmungen vom Abfrageframe zum Referenzframe berücksichtigt. Jeder Ort im Abfrageframe wird dabei auf den optimalen Ort im Referenzframe abgebildet, unabhängig davon, wie oft ein bestimmter Referenzframe-Ort referenziert wird. Dies funktioniert in den meisten Fällen gut und ist robust gegenüber schnellen Änderungen der Erscheinung, kann jedoch zu kritischen Fehlern führen, wenn der Abfrageframe Hintergrundstörungen enthält, die dem Zielobjekt ähneln. Um dieses Problem zu mildern, führen wir ein bijektives Übereinstimmungsmechanismus ein, um die besten Übereinstimmungen sowohl vom Abfrageframe zum Referenzframe als auch umgekehrt zu finden. Bevor die besten Übereinstimmungen für die Pixel des Abfrageframes ermittelt werden, werden zunächst die optimalen Übereinstimmungen für die Pixel des Referenzframes berücksichtigt, um zu verhindern, dass einzelne Referenzframe-Pixel übermäßig oft referenziert werden. Da dieses Mechanismus streng wirkt – d.h., Pixel sind nur dann miteinander verbunden, wenn sie sich gegenseitig als sichere Übereinstimmungen erweisen – kann er Hintergrundstörungen effektiv eliminieren. Darüber hinaus schlagen wir ein Masken-Embedding-Modul vor, um die bestehende Masken-Propagationsmethode zu verbessern. Durch die Einbettung mehrerer historischer Masken unter Einbeziehung von Koordinateninformationen kann es die Positionsinformationen eines Zielobjekts effektiv erfassen.