SAM 2: Segmente alles in Bildern und Videos

Wir präsentieren das Segment Anything Modell 2 (SAM 2), ein grundlegendes Modell zur Lösung der auf Aufforderungen basierenden visuellen Segmentierung in Bildern und Videos. Wir haben einen Datenmotor entwickelt, der durch Benutzerinteraktion sowohl das Modell als auch die Daten verbessert, um das größte Video-Segmentierungs-Datensatz-Archiv bislang zu sammeln. Unser Modell ist eine einfache Transformer-Architektur mit stromfähigem Speicher für die Echtzeit-Verarbeitung von Videos. Das SAM 2, das auf unseren Daten trainiert wurde, bietet eine starke Leistung bei einer breiten Palette von Aufgaben. Bei der Video-Segmentierung beobachten wir eine höhere Genauigkeit, wobei es 3-mal weniger Interaktionen benötigt als frühere Ansätze. Bei der Bildsegmentierung ist unser Modell genauer und 6-mal schneller als das Segment Anything Modell (SAM). Wir glauben, dass unsere Daten, unser Modell und unsere Erkenntnisse einen wichtigen Meilenstein für die Video-Segmentierung und verwandte Wahrnehmungsaufgaben darstellen werden. Wir veröffentlichen eine Version unseres Modells, den Datensatz sowie eine interaktive Demo.