XMem: Langzeitige Videoobjektsegmentierung mit einem Atkinson-Shiffrin-Gedächtnismodell

Wir präsentieren XMem, eine Architektur für die Segmentierung von Objekten in langen Videos mit vereinten Merkmals-speichern, inspiriert durch das Atkinson-Shiffrin-Gedächtnismodell. Frühere Arbeiten im Bereich der Video-Objekt-Segmentierung verwenden in der Regel nur eine Art von Merkmals-speicher. Bei Videos, die länger als eine Minute sind, verbindet ein einzelnes Merkmals-speicher-Modell den Speicherverbrauch eng mit der Genauigkeit. Im Gegensatz dazu entwickeln wir auf Basis des Atkinson-Shiffrin-Modells eine Architektur, die mehrere unabhängige, aber tief verwobene Merkmals-speicher umfasst: einen schnell aktualisierten sensorischen Speicher, einen hochaufgelösten Arbeitsgedächtnis und ein kompaktes, somit nachhaltiges Langzeitgedächtnis. Entscheidend ist dabei, dass wir einen Gedächtnispotentiationsalgorithmus entwickelt haben, der aktive Elemente des Arbeitsgedächtnisses regelmäßig in das Langzeitgedächtnis konsolidiert. Dies verhindert eine Explosion des Speicherverbrauchs und minimiert die Leistungsabnahme bei langfristigen Vorhersagen. In Kombination mit einem neuen Mechanismus zur Speicherlesung übertreffen XMem die Standesder Technik leistenden Methoden bei langen Videodatensätzen deutlich und erreicht gleichzeitig vergleichbare Ergebnisse wie diese Methoden (die nicht für lange Videos geeignet sind) bei kurzen Videodatensätzen. Der Quellcode ist unter https://hkchengrex.github.io/XMem verfügbar.