CounTR: Transformer-basierte verallgemeinerte visuelle Zählung

In dieser Arbeit betrachten wir das Problem der verallgemeinerten visuellen Objektzählung, mit dem Ziel, ein computionales Modell zu entwickeln, das die Anzahl von Objekten aus beliebigen semantischen Kategorien zählt, indem es eine beliebige Anzahl von "Beispielen" (exemplars) verwendet, also bei null-shot oder few-shot Zählung. Zu diesem Zweck leisten wir folgende vier Beiträge: (1) Wir stellen eine neuartige transformerbasierte Architektur für die verallgemeinerte visuelle Objektzählung vor, die als Counting Transformer (CounTR) bezeichnet wird und die Ähnlichkeit zwischen Bildausschnitten oder mit gegebenen "Beispielen" explizit mit dem Aufmerksamheitsmechanismus erfasst; (2) Wir verwenden ein zweistufiges Trainingsverfahren, das zunächst mit selbstüberwachtem Lernen vortrainiert wird und dann durch überwachtes Feinjustierung vervollständigt wird; (3) Wir schlagen einen einfachen, skalierbaren Pipeline vor, um Trainingsbilder mit einer großen Anzahl von Instanzen oder aus verschiedenen semantischen Kategorien zu synthetisieren, wobei das Modell explizit angewiesen wird, die gegebenen "Beispiele" zu nutzen; (4) Wir führen umfassende Abstraktionsstudien auf einem groß angelegten Zählungsbenchmark durch, wie zum Beispiel FSC-147, und zeigen dabei den Stand der Technik in null- und few-shot Szenarien auf.