HyperAIHyperAI
vor 2 Monaten

SAM2Long: Verbesserung von SAM 2 für die Segmentierung langer Videos durch einen trainingsfreien Gedächtnisbaum

Shuangrui Ding, Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Yuwei Guo, Dahua Lin, Jiaqi Wang
SAM2Long: Verbesserung von SAM 2 für die Segmentierung langer Videos durch einen
  trainingsfreien Gedächtnisbaum
Abstract

Das Segment Anything Modell 2 (SAM 2) ist als leistungsstarke Grundlage für die Objektsegmentierung in Bildern und Videos hervorgetreten und bahnt den Weg für verschiedene nachgelagerte Videoanwendungen. Ein entscheidendes Designmerkmal von SAM 2 für die Videosegmentierung ist sein Speichermodul, das objektspezifische Erinnerungen aus vorherigen Frames für die Vorhersage des aktuellen Frames nutzt. Allerdings leidet das gierige Selektionsdesign des Speichermoduls unter dem Problem der „Fehlerakkumulation“, bei dem ein fehlerhafter oder verpasster Maskenwert sich kaskadenartig auswirkt und die Segmentierung der nachfolgenden Frames beeinflusst, was die Leistung von SAM 2 bei komplexen langfristigen Videos einschränkt.Um dieses Problem zu lösen, stellen wir SAM2Long vor, eine verbesserte, trainingsfreie Strategie zur Videoobjektsegmentierung, die die Segmentierungunsicherheit innerhalb jedes Frames berücksichtigt und auf Basis eines eingeschränkten Baum-Suchverfahrens die videoübergreifenden optimalen Ergebnisse aus mehreren Segmentierungspfaden auswählt. In der Praxis halten wir während des gesamten Videos eine feste Anzahl von Segmentierungspfaden aufrecht. Für jeden Frame werden mehrere Masken basierend auf den vorhandenen Pfaden vorgeschlagen, wodurch verschiedene Kandidatenzweige entstehen. Wir wählen dann dieselbe feste Anzahl von Zweigen mit höheren kumulativen Scores als neue Pfade für den nächsten Frame aus. Nach der Verarbeitung des letzten Frames wird der Pfad mit dem höchsten kumulativen Score als endgültiges Segmentierungsresultat gewählt.Dank seines heuristischen Suchdesigns ist SAM2Long gegenüber Verdeckungen und erneuten Erscheinungen von Objekten robust und kann effektiv Objekte in komplexen langfristigen Videos segmentieren und verfolgen. Bemerkenswerterweise erreicht SAM2Long durchschnittlich eine Verbesserung um 3,0 Punkte in allen 24 direkten Vergleichen, wobei es bis zu 5,3 Punkte in J&F-Gain bei Benchmarks zur langfristigen Videoobjektsegmentierung wie SA-V und LVOS gewinnt. Der Code ist unter https://github.com/Mark12Ding/SAM2Long veröffentlicht.

SAM2Long: Verbesserung von SAM 2 für die Segmentierung langer Videos durch einen trainingsfreien Gedächtnisbaum | Neueste Forschungsarbeiten | HyperAI