HyperAIHyperAI

Command Palette

Search for a command to run...

CounTR: Transformer-basierte verallgemeinerte visuelle Zählung

Liu Chang ; Zhong Yujie ; Zisserman Andrew ; Xie Weidi

Zusammenfassung

In dieser Arbeit betrachten wir das Problem der verallgemeinerten visuellen Objektzählung, mit dem Ziel, ein computionales Modell zu entwickeln, das die Anzahl von Objekten aus beliebigen semantischen Kategorien zählt, indem es eine beliebige Anzahl von "Beispielen" (exemplars) verwendet, also bei null-shot oder few-shot Zählung. Zu diesem Zweck leisten wir folgende vier Beiträge: (1) Wir stellen eine neuartige transformerbasierte Architektur für die verallgemeinerte visuelle Objektzählung vor, die als Counting Transformer (CounTR) bezeichnet wird und die Ähnlichkeit zwischen Bildausschnitten oder mit gegebenen "Beispielen" explizit mit dem Aufmerksamheitsmechanismus erfasst; (2) Wir verwenden ein zweistufiges Trainingsverfahren, das zunächst mit selbstüberwachtem Lernen vortrainiert wird und dann durch überwachtes Feinjustierung vervollständigt wird; (3) Wir schlagen einen einfachen, skalierbaren Pipeline vor, um Trainingsbilder mit einer großen Anzahl von Instanzen oder aus verschiedenen semantischen Kategorien zu synthetisieren, wobei das Modell explizit angewiesen wird, die gegebenen "Beispiele" zu nutzen; (4) Wir führen umfassende Abstraktionsstudien auf einem groß angelegten Zählungsbenchmark durch, wie zum Beispiel FSC-147, und zeigen dabei den Stand der Technik in null- und few-shot Szenarien auf.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp