VLCounter: Textbewusste visuelle Repräsentation für Zero-Shot-Objekterkennung

Zero-Shot Object Counting (ZSOC) strebt danach, Instanzen beliebiger Klassen in einem Abfragebild zu zählen, ohne menschliche Annotationen als Beispiele zu verwenden. Um ZSOC anzugehen, schlugen frühere Studien einen zweistufigen Prozess vor: die Entdeckung von Exemplaren und das Zählen. Allerdings bleibt die Herausforderung der Anfälligkeit für Fehlerfortpflanzung im sequentiell gestalteten Zweistufenprozess bestehen. In dieser Arbeit wird ein einstufiges Baseline-Modell, das Visual-Language Baseline (VLBase), vorgeschlagen, welches die implizite Assoziation der semantischen Patch-Embeddings von CLIP untersucht. Anschließend wird die Erweiterung des VLBase zu einem Visual-Language Counter (VLCounter) durch die Integration dreier Module erreicht, die darauf abzielen, das VLBase für Objekterkennung zu optimieren. Erstens wird Semantic-conditioned Prompt Tuning (SPT) innerhalb des Bildencoders eingeführt, um Ziel-hervorgehobene Darstellungen zu erlangen. Zweitens wird eine lernfähige affine Transformation (LAT) angewendet, um die semantische Patch-Ähnlichkeitskarte für die Zähltafel aufzubereiten. Schließlich werden die schichtweise kodierten Merkmale durch Segment-aware Skip Connection (SaSC) an den Decoder übertragen, um die Generalisierungsfähigkeit für unbekannte Klassen zu gewährleisten. Durch umfangreiche Experimente auf FSC147, CARPK und PUCPR+ werden die Vorteile des end-to-end-Frameworks VLCounter demonstriert.