SAM 3: Segmentierung beliebiger Objekte mittels Konzepten

Abstract
Hier ist die Übersetzung des Textes ins Deutsche, unter Berücksichtigung des geforderten fachsprachlichen und akademischen Stils:Wir stellen das Segment Anything Model (SAM) 3 vor, ein vereinheitlichtes Modell, das Objekte in Bildern und Videos basierend auf Konzept-Prompts erkennt, segmentiert und verfolgt. Diese Prompts definieren wir entweder als kurze Nominalphrasen (z. B. „gelber Schulbus“), als Bildbeispiele oder als eine Kombination aus beidem. Die sogenannte Promptable Concept Segmentation (PCS) verarbeitet solche Prompts und liefert Segmentierungsmasken sowie eindeutige Identitäten für alle übereinstimmenden Objektinstanzen. Um die PCS weiterzuentwickeln, haben wir eine skalierbare Data Engine aufgebaut, die einen hochwertigen Datensatz mit 4 Millionen eindeutigen Konzeptlabels – einschließlich Hard Negatives – über Bilder und Videos hinweg generiert. Unser Modell besteht aus einem Detektor auf Bildebene und einem speicherbasierten Video-Tracker, die sich ein gemeinsames Backbone teilen. Erkennung und Lokalisierung werden durch einen Presence Head entkoppelt, was die Erkennungsgenauigkeit signifikant steigert. SAM 3 verdoppelt die Genauigkeit bestehender Systeme sowohl bei der Bild- als auch bei der Video-PCS und optimiert die Fähigkeiten früherer SAM-Modelle bei visuellen Segmentierungsaufgaben. Wir veröffentlichen SAM 3 als Open Source zusammen mit unserem neuen Benchmark Segment Anything with Concepts (SA-Co) für die Promptable Concept Segmentation.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.