HyperAIHyperAI

Command Palette

Search for a command to run...

Vision Transformer Off-the-Shelf: Eine überraschende Baseline für Few-Shot klassenunabhängiges Zählen

Zhicheng Wang Liwen Xiao Zhiguo Cao Hao Lu

Zusammenfassung

Klassenunabhängiges Zählen (Class-agnostic Counting, CAC) zielt darauf ab, Objekte von Interesse anhand eines Abfragebildes zu zählen, wobei nur wenige Exemplare zur Verfügung stehen. Dieser Aufgabe wird typischerweise durch Extraktion der Merkmale aus dem Abfragebild und den Exemplaren sowie anschließende Übereinstimmung der Merkmalsähnlichkeit begegnet, was ein „Extract-then-Match“-Paradigma ergibt. In dieser Arbeit zeigen wir, dass CAC in einer vereinfachten „Extract-and-Match“-Form behandelt werden kann, insbesondere mithilfe eines Vision-Transformers (ViT), bei dem Merkmalsextraktion und Ähnlichkeitsübereinstimmung gleichzeitig innerhalb der Selbst-Attention-Operation erfolgen. Wir erklären die Grundlage dieser Vereinfachung aus einer entkoppelten Perspektive der Selbst-Attention. Das resultierende Modell, CACViT genannt, vereinfacht den CAC-Prozess auf eine einzige vortrainierte, einfache ViT-Architektur. Um den Verlust an Skalen- und Größenordnungsinformation, der durch das Skalieren und Normalisieren in einer herkömmlichen ViT entsteht, auszugleichen, präsentieren wir zwei effektive Strategien zur Einbettung von Skala und Größenordnung. Umfassende Experimente auf den Datensätzen FSC147 und CARPK zeigen, dass CACViT sowohl in Bezug auf Effektivität (23,60 % Reduktion des Fehlers) als auch Generalisierbarkeit deutlich über aktuelle State-of-the-Art-Ansätze für CAC hinausgeht, was darauf hindeutet, dass CACViT eine präzise und leistungsstarke Baseline für CAC darstellt. Der Quellcode wird verfügbar gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Vision Transformer Off-the-Shelf: Eine überraschende Baseline für Few-Shot klassenunabhängiges Zählen | Paper | HyperAI