Alles Zählen Lernen: Referenzfreies, klassenagnostisches Zählen mit schwacher Überwachung

Aktuelle klassenunabhängige Zählmethoden können auf unbekannte Klassen verallgemeinert werden, erfordern aber in der Regel Referenzbilder, um den zu zählenden Objekttyp zu definieren, sowie Instanzannotierungen während des Trainings. Die klassenunabhängige Zählung ohne Referenzbilder ist ein aufkommendes Feld, das die Zählung im Kern als eine Wiederholungs-Erkennungsaufgabe identifiziert. Solche Methoden erleichtern die Zählung bei einer sich ändernden Mengenzusammensetzung. Wir zeigen, dass ein allgemeiner Merkmalsraum mit globaler Kontextinformation Instanzen in einem Bild zählen kann, ohne eine Voraussetzung über den vorhandenen Objekttyp zu haben. Insbesondere demonstrieren wir, dass die Regression von Vision-Transformer-Merkmalsräumen ohne punktgenaue Überwachung oder Referenzbilder anderen referenzlosen Methoden überlegen ist und mit Methoden konkurrieren kann, die Referenzbilder verwenden. Dies zeigen wir am aktuellen Standard-Datensatz für Few-Shot-Zählung, dem FSC-147. Wir schlagen außerdem einen verbesserten Datensatz vor, den FSC-133, der Fehler, Ambiguitäten und wiederholte Bilder aus dem FSC-147 entfernt und vergleichbare Leistungen darauf demonstriert. Nach bestem Wissen sind wir die erste schwach überwachte klassenunabhängige Zählmethode ohne Referenzbilder.