vor 2 Monaten

SAM 2: Segmente alles in Bildern und Videos

Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer

Details der Forschungsarbeit anzeigen

SAM 2: Segmente alles in Bildern und Videos

Abstract

Wir präsentieren das Segment Anything Modell 2 (SAM 2), ein grundlegendes Modell zur Lösung der auf Aufforderungen basierenden visuellen Segmentierung in Bildern und Videos. Wir haben einen Datenmotor entwickelt, der durch Benutzerinteraktion sowohl das Modell als auch die Daten verbessert, um das größte Video-Segmentierungs-Datensatz-Archiv bislang zu sammeln. Unser Modell ist eine einfache Transformer-Architektur mit stromfähigem Speicher für die Echtzeit-Verarbeitung von Videos. Das SAM 2, das auf unseren Daten trainiert wurde, bietet eine starke Leistung bei einer breiten Palette von Aufgaben. Bei der Video-Segmentierung beobachten wir eine höhere Genauigkeit, wobei es 3-mal weniger Interaktionen benötigt als frühere Ansätze. Bei der Bildsegmentierung ist unser Modell genauer und 6-mal schneller als das Segment Anything Modell (SAM). Wir glauben, dass unsere Daten, unser Modell und unsere Erkenntnisse einen wichtigen Meilenstein für die Video-Segmentierung und verwandte Wahrnehmungsaufgaben darstellen werden. Wir veröffentlichen eine Version unseres Modells, den Datensatz sowie eine interaktive Demo.