Personalisiere das Segment Anything-Modell mit einem Schuss

Angetrieben durch die Vortraining mit großen Datenmengen, hat das Segment Anything Modell (SAM) sich als ein leistungsstarkes und anweisungsfähiges Framework erwiesen, das die Segmentationssysteme revolutioniert. Trotz seiner Allgemeinheit ist die Anpassung von SAM an spezifische visuelle Konzepte ohne manuelle Eingabe noch wenig erforscht, zum Beispiel die automatische Segmentierung eines Haustierhundes in verschiedenen Bildern. In dieser Arbeit schlagen wir einen trainingsfreien Anpassungsansatz für SAM vor, den wir PerSAM nennen. Mit nur einem einzelnen Bild und einer Referenzmaske lokalisiert PerSAM zunächst das Zielkonzept durch eine Standortvorinformation und segmentiert es in anderen Bildern oder Videos mittels dreier Techniken:zielgeleiteter Aufmerksamkeit, semantischer Zielanweisung und kaskadierter Nachverfeinerung. Auf diese Weise passen wir SAM effektiv für den privaten Gebrauch an, ohne irgendeine Trainingsphase durchzuführen. Um die Maske-Unklarheit weiter zu verringern, präsentieren wir eine effiziente One-Shot Feinabstimmungsversion, PerSAM-F. Indem wir das gesamte SAM einfrieren, führen wir zwei lernfähige Gewichte für mehrskalige Masken ein und trainieren nur 2 Parameter innerhalb von 10 Sekunden zur Leistungssteigerung. Um unsere Effektivität zu demonstrieren, erstellen wir einen neuen Segmentationdatensatz, PerSeg, für personalisierte Bewertungen und testen unsere Methoden bei der Videoobjektssegmentierung mit wettbewerbsfähigem Ergebnis. Darüber hinaus kann unser Ansatz auch DreamBooth verbessern, um Stable Diffusion für Text-zu-Bild-Generierung zu personalisieren, was Störungen im Hintergrund beseitigt und so das Lernen der besseren Zielaufnahme fördert. Der Quellcode ist unter https://github.com/ZrrSkywalker/Personalize-SAM veröffentlicht.