Selbstüberwachte Video-Objekt-Segmentierung mit Destillationslernen deformierbarer Aufmerksamkeit

Die Video-Objekt-Segmentation ist ein grundlegendes Forschungsproblem im Bereich der Computer Vision. Aktuelle Techniken wenden häufig die Aufmerksamkeitsmechanismen zur Lernung von Objektdarstellungen aus Videosequenzen an. Allerdings können die Aufmerksamkeitskarten aufgrund zeitlicher Veränderungen in den Videodaten nicht gut mit den interessierenden Objekten über die einzelnen Videobilder hinweg übereinstimmen, was zu akkumulierten Fehlern bei langfristiger Videoverarbeitung führt. Zudem haben bestehende Techniken komplexe Architekturen verwendet, die eine hohe Rechenkomplexität erfordern und somit die Integration der Video-Objekt-Segmentation in Geräte mit geringer Leistungsfähigkeit einschränken.Um diese Probleme zu lösen, schlagen wir eine neue Methode für selbstüberwachte Video-Objekt-Segmentation vor, die auf der Destillationslernen von deformierbaren Aufmerksamkeitsmechanismen basiert. Insbesondere entwickeln wir eine leichte Architektur für die Video-Objekt-Segmentation, die effektiv an zeitliche Veränderungen angepasst wird. Dies wird durch den deformierbaren Aufmerksamkeitsmechanismus ermöglicht, bei dem die Schlüssel und Werte, die das Gedächtnis einer Videosequenz im Aufmerksamkeitsmodul erfassen, flexibel über die Bilder hinweg aktualisiert werden. Die gelernten Objektdarstellungen sind daher sowohl in der räumlichen als auch in der zeitlichen Dimension anpassbar.Wir trainieren die vorgeschlagene Architektur in einem selbstüberwachten Modus durch ein neues Paradigma des Wissensdestillations, bei dem deformierte Aufmerksamkeitskarten in den Destillationsverlust integriert werden. Wir bewerten unsere Methode sowohl qualitativ als auch quantitativ und vergleichen sie mit bestehenden Methoden auf Benchmark-Datensätzen wie DAVIS 2016/2017 und YouTube-VOS 2018/2019. Die experimentellen Ergebnisse bestätigen die Überlegenheit unserer Methode durch ihre erstklassige Leistung und optimale Speicherverwendung.