Trainingsfreies Objektzählen mit Anweisungen

Dieses Papier behandelt das Problem der Objektzählung in Bildern. Bestehende Ansätze basieren auf umfangreichen Trainingsdaten mit Punktanotations für jedes Objekt, was die Datensammlung arbeitsintensiv und zeitaufwendig macht. Um dieses Problem zu überwinden, schlagen wir einen trainingsfreien Objektzähler vor, der die Zählungsaufgabe als Segmentierungsaufgabe behandelt. Unser Ansatz nutzt das Segment Anything Modell (SAM), das für seine hochwertigen Masken und seine Fähigkeit zur Null-Shot-Segmentierung bekannt ist. Allerdings fehlen in der Standard-Maskenerzeugungsmethode des SAM Klassen-spezifische Informationen in den Masken, was zu einer geringeren Zählgenauigkeit führt. Um diese Einschränkung zu beseitigen, führen wir eine priorgeleitete Maskenerzeugungsmethode ein, die drei Arten von Vorwissen in den Segmentierungsprozess integriert und so Effizienz und Genauigkeit steigert. Des Weiteren adressieren wir das Problem der Zählung von durch Text spezifizierten Objekten durch einen zweistufigen Ansatz, der die Auswahl von Referenzobjekten und die priorgeleitete Maskenerzeugung kombiniert. Ausführliche Experimente auf Standarddatensätzen zeigen die wettbewerbsfähige Leistung unseres trainingsfreien Zählers im Vergleich zu lernbasierten Ansätzen. Dieses Papier präsentiert eine vielversprechende Lösung für die Zählung von Objekten in verschiedenen Szenarien ohne die Notwendigkeit umfangreicher Datensammlung und zählungsbezogenen Trainings. Der Quellcode ist unter \url{https://github.com/shizenglin/training-free-object-counter} verfügbar.