HyperAIHyperAI

Command Palette

Search for a command to run...

SAM2Long: Verbesserung von SAM 2 für die Segmentierung langer Videos durch einen trainingsfreien Gedächtnisbaum

Shuangrui Ding Rui Qian Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Yuwei Guo Dahua Lin Jiaqi Wang

Zusammenfassung

Das Segment Anything Modell 2 (SAM 2) ist als leistungsstarke Grundlage für die Objektsegmentierung in Bildern und Videos hervorgetreten und bahnt den Weg für verschiedene nachgelagerte Videoanwendungen. Ein entscheidendes Designmerkmal von SAM 2 für die Videosegmentierung ist sein Speichermodul, das objektspezifische Erinnerungen aus vorherigen Frames für die Vorhersage des aktuellen Frames nutzt. Allerdings leidet das gierige Selektionsdesign des Speichermoduls unter dem Problem der „Fehlerakkumulation“, bei dem ein fehlerhafter oder verpasster Maskenwert sich kaskadenartig auswirkt und die Segmentierung der nachfolgenden Frames beeinflusst, was die Leistung von SAM 2 bei komplexen langfristigen Videos einschränkt.Um dieses Problem zu lösen, stellen wir SAM2Long vor, eine verbesserte, trainingsfreie Strategie zur Videoobjektsegmentierung, die die Segmentierungunsicherheit innerhalb jedes Frames berücksichtigt und auf Basis eines eingeschränkten Baum-Suchverfahrens die videoübergreifenden optimalen Ergebnisse aus mehreren Segmentierungspfaden auswählt. In der Praxis halten wir während des gesamten Videos eine feste Anzahl von Segmentierungspfaden aufrecht. Für jeden Frame werden mehrere Masken basierend auf den vorhandenen Pfaden vorgeschlagen, wodurch verschiedene Kandidatenzweige entstehen. Wir wählen dann dieselbe feste Anzahl von Zweigen mit höheren kumulativen Scores als neue Pfade für den nächsten Frame aus. Nach der Verarbeitung des letzten Frames wird der Pfad mit dem höchsten kumulativen Score als endgültiges Segmentierungsresultat gewählt.Dank seines heuristischen Suchdesigns ist SAM2Long gegenüber Verdeckungen und erneuten Erscheinungen von Objekten robust und kann effektiv Objekte in komplexen langfristigen Videos segmentieren und verfolgen. Bemerkenswerterweise erreicht SAM2Long durchschnittlich eine Verbesserung um 3,0 Punkte in allen 24 direkten Vergleichen, wobei es bis zu 5,3 Punkte in J&F-Gain bei Benchmarks zur langfristigen Videoobjektsegmentierung wie SA-V und LVOS gewinnt. Der Code ist unter https://github.com/Mark12Ding/SAM2Long veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SAM2Long: Verbesserung von SAM 2 für die Segmentierung langer Videos durch einen trainingsfreien Gedächtnisbaum | Paper | HyperAI