Hochwertige Segmentierung mit Anything

Der kürzlich vorgestellte Segment Anything Model (SAM) markiert einen bedeutenden Fortschritt bei der Skalierung von Segmentierungsmodellen und ermöglicht leistungsstarke Zero-Shot-Fähigkeiten sowie flexible Anpassung über Prompts. Trotz der Ausbildung mit 1,1 Milliarden Masken bleibt die Qualität der Maskenvorhersagen von SAM in vielen Fällen hinter den Erwartungen zurück, insbesondere bei Objekten mit komplexen Strukturen. Wir stellen HQ-SAM vor, eine Erweiterung von SAM, die die Fähigkeit zur präzisen Segmentierung beliebiger Objekte beibehält, während die ursprüngliche promptbasierte Architektur, Effizienz und Zero-Shot-Verallgemeinerbarkeit von SAM unangetastet bleiben. Durch eine sorgfältige Gestaltung werden die vortrainierten Gewichte von SAM wiederverwendet und beibehalten, wobei lediglich minimale zusätzliche Parameter und Berechnungsaufwände hinzugefügt werden. Wir führen einen lernbaren High-Quality Output Token ein, der in den Masken-Decoder von SAM integriert wird und für die Vorhersage hochwertiger Masken verantwortlich ist. Anstatt diesen nur auf den Features des Masken-Decoders anzuwenden, fusionieren wir sie zunächst mit frühen und finalen ViT-Features, um die Detailgenauigkeit der Masken zu verbessern. Zur Trainingszeit unserer lernbaren Parameter erstellen wir eine Datensammlung aus 44.000 fein abgestimmten Masken aus mehreren Quellen. HQ-SAM wird ausschließlich auf dieser neu eingeführten Datensammlung mit 44.000 Masken trainiert, was auf 8 GPUs nur vier Stunden dauert. Wir demonstrieren die Wirksamkeit von HQ-SAM an einer Reihe von zehn unterschiedlichen Segmentierungsdatensätzen über verschiedene nachgeschaltete Aufgaben hinweg, wobei acht dieser Datensätze im Zero-Shot-Transfer-Protokoll evaluiert werden. Unser Code und die vortrainierten Modelle sind unter https://github.com/SysCV/SAM-HQ verfügbar.