CLIP-EBC: CLIP kann präzise zählen durch verbesserte blockweise Klassifikation

Wir stellen CLIP-EBC vor, das erste vollständig auf CLIP basierende Modell zur präzisen Schätzung von Menschenmengen. Während das CLIP-Modell beachtliche Erfolge bei Erkennungsaufgaben wie der zero-shot-Bildklassifikation gezeigt hat, wurde sein Potenzial für Zählprobleme aufgrund der inhärenten Schwierigkeiten bei der Transformation eines Regressionsproblems – wie der Zählung – in eine Klassifikationsaufgabe bisher weitgehend unerforscht gelassen. In dieser Arbeit untersuchen und verbessern wir die Fähigkeit von CLIP zur Zählung, wobei wir uns speziell der Aufgabe der Schätzung von Menschenmengen aus Bildern widmen. Bestehende auf Klassifikation basierende Ansätze zur Menschenzählung weisen erhebliche Einschränkungen auf, darunter die Quantisierung von Zählwerten in benachbarte reelle Intervalle sowie die ausschließliche Berücksichtigung von Klassifikationsfehlern. Diese Vorgehensweisen führen zu einer unscharfen Zuordnung von Etiketten in der Nähe gemeinsamer Grenzen und zu ungenauen Schätzungen der Zählwerte. Daher könnte die direkte Anwendung von CLIP innerhalb dieser Rahmenwerke zu suboptimalen Ergebnissen führen.Um diese Herausforderungen anzugehen, schlagen wir zunächst den erweiterten Blockweisen Klassifikationsansatz (Enhanced Blockwise Classification, EBC) vor. Im Gegensatz zu früheren Methoden verwendet EBC ganzzahlige Intervalle, wodurch die Ambiguität in der Nähe der Intervallgrenzen effektiv reduziert wird. Zudem integriert EBC eine Regressionsverlustfunktion basierend auf Dichtekarten, um die Genauigkeit der Zählwertvorhersagen zu verbessern. Innerhalb unseres auf beliebigen Grundarchitekturen basierenden EBC-Frameworks führen wir CLIP-EBC ein, um die Erkennungsfähigkeiten von CLIP vollständig für diese Aufgabe auszunutzen. Umfangreiche Experimente belegen die Wirksamkeit von EBC sowie die herausragende Leistungsfähigkeit von CLIP-EBC. Insbesondere kann unser EBC-Framework bestehende klassifikationsbasierte Methoden auf dem UCF-QNRF-Datensatz um bis zu 44,5 % verbessern, während CLIP-EBC auf dem NWPU-Crowd-Testset die derzeit beste Leistung erzielt, mit einem MAE von 58,2 und einem RMSE von 268,5 – eine Verbesserung um 8,6 % und 13,3 % gegenüber der vorherigen Bestleistung, STEERER. Der Quellcode und die Modellgewichte sind unter https://github.com/Yiming-M/CLIP-EBC verfügbar.