Vision Transformer Off-the-Shelf: Eine überraschende Baseline für Few-Shot klassenunabhängiges Zählen

Klassenunabhängiges Zählen (Class-agnostic Counting, CAC) zielt darauf ab, Objekte von Interesse anhand eines Abfragebildes zu zählen, wobei nur wenige Exemplare zur Verfügung stehen. Dieser Aufgabe wird typischerweise durch Extraktion der Merkmale aus dem Abfragebild und den Exemplaren sowie anschließende Übereinstimmung der Merkmalsähnlichkeit begegnet, was ein „Extract-then-Match“-Paradigma ergibt. In dieser Arbeit zeigen wir, dass CAC in einer vereinfachten „Extract-and-Match“-Form behandelt werden kann, insbesondere mithilfe eines Vision-Transformers (ViT), bei dem Merkmalsextraktion und Ähnlichkeitsübereinstimmung gleichzeitig innerhalb der Selbst-Attention-Operation erfolgen. Wir erklären die Grundlage dieser Vereinfachung aus einer entkoppelten Perspektive der Selbst-Attention. Das resultierende Modell, CACViT genannt, vereinfacht den CAC-Prozess auf eine einzige vortrainierte, einfache ViT-Architektur. Um den Verlust an Skalen- und Größenordnungsinformation, der durch das Skalieren und Normalisieren in einer herkömmlichen ViT entsteht, auszugleichen, präsentieren wir zwei effektive Strategien zur Einbettung von Skala und Größenordnung. Umfassende Experimente auf den Datensätzen FSC147 und CARPK zeigen, dass CACViT sowohl in Bezug auf Effektivität (23,60 % Reduktion des Fehlers) als auch Generalisierbarkeit deutlich über aktuelle State-of-the-Art-Ansätze für CAC hinausgeht, was darauf hindeutet, dass CACViT eine präzise und leistungsstarke Baseline für CAC darstellt. Der Quellcode wird verfügbar gemacht.