READMem: Robuste Einbettungsassoziation für eine vielfältige Erinnerung in der unbeschränkten Video-Objekt-Segmentierung

Wir präsentieren READMem (Robust Embedding Association for a Diverse Memory), ein modulares Framework für halbautomatische Videoobjektssegmentierung (sVOS), das entwickelt wurde, um unbeschränkte Videos zu verarbeiten. Aktuelle sVOS-Methoden aggregieren Videoframes in einem ständig wachsenden Speicher, was hohe Hardware-Ressourcen für langfristige Anwendungen erfordert. Um die Speicheranforderungen zu reduzieren und nahezu identische Objekte (verursacht durch Informationen benachbarter Frames) zu vermeiden, führen vorherige Methoden einen Hyperparameter ein, der die Häufigkeit von Frames steuert, die gespeichert werden dürfen. Dieser Parameter muss anhand konkreter Videoeigenschaften (wie der Schnelligkeit von Erscheinungsänderungen und der Videolänge) angepasst werden und generalisiert nicht gut. Stattdessen integrieren wir das Embedding eines neuen Frames nur dann in den Speicher, wenn es die Vielfalt des Speicherinhalts erhöht. Darüber hinaus schlagen wir eine robuste Zuordnung der im Speicher gespeicherten Embeddings zu Abfrage-Embeddings während des Aktualisierungsprozesses vor. Unser Ansatz verhindert die Akkumulation redundanter Daten und ermöglicht es uns, die Speichergöße einzuschränken und extrem hohe Speicheranforderungen in langen Videos zu vermeiden. Wir erweitern bekannte sVOS-Baselines mit READMem, die bisher bei langen Videos begrenzte Leistungen zeigten. Unser Ansatz erzielt wettbewerbsfähige Ergebnisse auf dem Long-time Video-Datensatz (LV1), ohne die Leistung bei kurzen Sequenzen zu beeinträchtigen. Unser Code ist öffentlich verfügbar.