SegGPT: Segmentierung von Allem im Kontext

Wir präsentieren SegGPT, ein allgemeines Modell zur Segmentierung von Objekten im Kontext. Wir vereinen verschiedene Segmentierungsaufgaben in einem allgemeinen kontextbasierten Lernrahmen, der verschiedene Arten von Segmentierungsdaten durch ihre Transformation in das gleiche Bildformat aufnimmt. Die Schulung von SegGPT wird als kontextbasiertes Färbeproblem formuliert, wobei für jedes Datenbeispiel eine zufällige Farbkarte verwendet wird. Das Ziel besteht darin, verschiedene Aufgaben gemäß dem Kontext zu lösen, anstatt sich auf spezifische Farben zu stützen. Nach der Schulung kann SegGPT beliebige Segmentierungsaufgaben in Bildern oder Videos durch kontextbasierte Inferenz ausführen, wie zum Beispiel die Segmentierung von Objektinstanzen, Materialien (stuff), Teilen, Konturen und Text. SegGPT wurde anhand einer breiten Palette von Aufgaben evaluiert, darunter Few-Shot-Semantische Segmentierung, Video-Objekt-Segmentierung, semantische Segmentierung und panoptische Segmentierung. Unsere Ergebnisse zeigen starke Fähigkeiten bei der Segmentierung sowohl in- als auch außerhalb des Trainingsdomänenbereichs, sowohl qualitativ als auch quantitativ.