Speicherabgleich reicht nicht aus: Gemeinsame Verbesserung von Speicherabgleich und Decodierung für die Videobjektsegmentierung

Verfahren zur Videoobjektsegmentierung auf Basis von Speichermodellen erfassen mehrere Objekte über große zeitliche und räumliche Intervalle durch die Einrichtung eines Speicherbank-Systems und erreichen dabei beachtliche Leistungsergebnisse. Dennoch haben sie Schwierigkeiten, falsche Zuordnungen zu überwinden und neigen dazu, kritische Informationen zu verlieren, was zu einer Verwechslung verschiedener Objekte führt. In diesem Artikel stellen wir einen effektiven Ansatz vor, der gleichzeitig die Zuordnungs- und Dekodierungsstufen verbessert, um das Problem falscher Zuordnungen zu verringern. Für die Speicherzuordnungsstufe führen wir eine kostenbewusste Mechanik ein, die geringfügige Fehler in der kurzfristigen Speicherung unterdrückt, sowie eine verzweigte, mehrskalige Zuordnung für die langfristige Speicherung, die einen breiten Zuordnungsraum für unterschiedliche Objektgrößen ermöglicht. Für die Ausgabedekodierstufe implementieren wir eine kompensatorische Mechanik, die darauf abzielt, die entscheidenden Informationen wiederherzustellen, die bei der Zuordnungsstufe verloren gegangen sind. Unser Ansatz erzielt herausragende Ergebnisse in mehreren etablierten Benchmarks (z. B. DAVIS 2016 & 2017 Val (92,4 % & 88,1 %), sowie DAVIS 2017 Test (83,9 %)) und erreicht 84,8 % bzw. 84,6 % auf YouTubeVOS 2018 & 2019 Val.