Hierarchisches Gedächtnis-Matching-Netzwerk für die Video-Objekt-Segmentierung

Wir stellen das Hierarchical Memory Matching Network (HMMN) für die semi-supervised Video-Objektsegmentierung vor. Aufbauend auf einer kürzlich vorgestellten memory-basierten Methode [33] schlagen wir zwei erweiterte Memory-Lese-Module vor, die es ermöglichen, Memory-Lesevorgänge auf mehreren Skalen durchzuführen, während gleichzeitig die zeitliche Glätte ausgenutzt wird. Zunächst führen wir ein kernelgesteuertes Memory-Matching-Modul ein, das die üblicherweise in früheren memory-basierten Ansätzen verwendete nicht-lokale dichte Memory-Lesung ersetzt. Dieses Modul setzt eine zeitliche Glättebedingung während des Memory-Lesens durch, was zu präzisen Memory-Abfragen führt. Noch wichtiger ist, dass wir ein hierarchisches Memory-Matching-Schema einführen und ein top-k-gesteuertes Memory-Matching-Modul vorschlagen, bei dem die Memory-Lesung auf einer feinen Skala durch die auf einer groben Skala geleitete wird. Mit diesem Modul können wir effizient Memory-Lesungen auf mehreren Skalen durchführen und sowohl hochwertige semantische als auch feinkörnige niedrigstufige Memory-Features nutzen, um detaillierte Objektmasken vorherzusagen. Unser Netzwerk erreicht state-of-the-art-Leistungen auf den Validierungssets von DAVIS 2016/2017 (90,8 % und 84,7 %) sowie YouTube-VOS 2018/2019 (82,6 % und 82,5 %) und dem Test-Dev-Set von DAVIS 2017 (78,6 %). Der Quellcode und die Modelle sind online verfügbar unter: https://github.com/Hongje/HMMN.