Neubewertung von Raum-Zeit-Netzwerken mit verbesserter Speicherabdeckung für eine effiziente Video-Objektsegmentierung

Diese Arbeit präsentiert einen einfachen, jedoch wirksamen Ansatz zur Modellierung von Raum-Zeit-Entsprechungen im Kontext der Video-Objektsegmentierung. Im Gegensatz zu den meisten bestehenden Methoden etablieren wir Entsprechungen direkt zwischen Bildern, ohne die Maskenmerkmale für jedes Objekt erneut zu kodieren, was ein äußerst effizientes und robustes Framework ermöglicht. Mit diesen Entsprechungen wird jeder Knoten im aktuellen Abfragebild durch assoziative Aggregation von Merkmalen aus der Vergangenheit inferiert. Wir formulieren den Aggregationsprozess als ein Wahlproblem und stellen fest, dass die herkömmliche Ähnlichkeitsmaß basierend auf dem Inner-Product zu einer schlechten Nutzung des Speichers führt, da stets eine kleine (fixe) Teilmenge von Speicherknoten die überwiegende Zahl der Stimmen erhält, unabhängig vom Abfrageinhalt. In Anbetracht dieses Phänomens schlagen wir vor, stattdessen die negative quadrierte euklidische Distanz zur Berechnung der Ähnlichkeiten zu verwenden. Wir validieren, dass nun jeder Speicherknoten die Möglichkeit erhält, beizutragen, und zeigen experimentell, dass eine diversifizierte Stimmabgabe sowohl die Speichereffizienz als auch die Genauigkeit der Inferenz verbessert. Die Synergie aus Entsprechungsnetzwerken und diversifizierter Stimmabgabe erzielt hervorragende Ergebnisse und erreicht neue State-of-the-Art-Werte auf den Datensätzen DAVIS und YouTubeVOS, wobei die Ausführungsgeschwindigkeit bei mehreren Objekten signifikant über 20 FPS liegt, ohne auf zusätzliche technische Hilfsmittel zurückgreifen zu müssen.