HyperAIHyperAI

Command Palette

Search for a command to run...

VLCounter: Textbewusste visuelle Repräsentation für Zero-Shot-Objekterkennung

Seunggu Kang WonJun Moon Euiyeon Kim Jae-Pil Heo *

Zusammenfassung

Zero-Shot Object Counting (ZSOC) strebt danach, Instanzen beliebiger Klassen in einem Abfragebild zu zählen, ohne menschliche Annotationen als Beispiele zu verwenden. Um ZSOC anzugehen, schlugen frühere Studien einen zweistufigen Prozess vor: die Entdeckung von Exemplaren und das Zählen. Allerdings bleibt die Herausforderung der Anfälligkeit für Fehlerfortpflanzung im sequentiell gestalteten Zweistufenprozess bestehen. In dieser Arbeit wird ein einstufiges Baseline-Modell, das Visual-Language Baseline (VLBase), vorgeschlagen, welches die implizite Assoziation der semantischen Patch-Embeddings von CLIP untersucht. Anschließend wird die Erweiterung des VLBase zu einem Visual-Language Counter (VLCounter) durch die Integration dreier Module erreicht, die darauf abzielen, das VLBase für Objekterkennung zu optimieren. Erstens wird Semantic-conditioned Prompt Tuning (SPT) innerhalb des Bildencoders eingeführt, um Ziel-hervorgehobene Darstellungen zu erlangen. Zweitens wird eine lernfähige affine Transformation (LAT) angewendet, um die semantische Patch-Ähnlichkeitskarte für die Zähltafel aufzubereiten. Schließlich werden die schichtweise kodierten Merkmale durch Segment-aware Skip Connection (SaSC) an den Decoder übertragen, um die Generalisierungsfähigkeit für unbekannte Klassen zu gewährleisten. Durch umfangreiche Experimente auf FSC147, CARPK und PUCPR+ werden die Vorteile des end-to-end-Frameworks VLCounter demonstriert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VLCounter: Textbewusste visuelle Repräsentation für Zero-Shot-Objekterkennung | Paper | HyperAI