Crowd-SAM: SAM als intelligenter Annotator für Objekterkennung in dichten Szenen

Im Bereich der Computer Vision ist die Objekterkennung eine wichtige Aufgabe, die in vielen Szenarien Anwendung findet. Die Erstellung umfangreicher Labels kann jedoch herausfordernd sein, insbesondere in dicht besetzten Szenen. Kürzlich wurde das Segment Anything Modell (SAM) als ein leistungsstarkes Zero-Shot-Segmentierungsmodell vorgeschlagen, das einen neuen Ansatz für Instanzsegmentierungsaufgaben bietet. Allerdings wird die Genauigkeit und Effizienz von SAM und seinen Varianten oft eingeschränkt, wenn es sich mit Objekten in dicht besetzten und verdeckten Szenen befassen muss. In dieser Arbeit stellen wir Crowd-SAM vor, ein auf SAM basierendes Framework, das darauf abzielt, die Leistung von SAM in dicht besetzten und verdeckten Szenen durch den Einsatz weniger lernfähiger Parameter und minimale annotierte Bilder zu verbessern. Wir führen einen effizienten Prompt Sampler (EPS) und ein Part-Whole-Diskriminationsnetzwerk (PWD-Net) ein, die die Maskenauswahl und die Genauigkeit in dicht besetzten Szenen verbessern. Trotz seiner Einfachheit erreicht Crowd-SAM vergleichbare Ergebnisse wie der Stand der Technik (SOTA) vollständig überwachte Objekterkennungsmethoden auf mehreren Benchmarks, darunter CrowdHuman und CityPersons. Unser Code ist unter https://github.com/FelixCaae/CrowdSAM verfügbar.