Alles Zählen Lernen

Bestehende Arbeiten im Bereich der visuellen Zählung konzentrieren sich hauptsächlich auf eine spezifische Kategorie zur gleichen Zeit, wie zum Beispiel Menschen, Tiere und Zellen. In dieser Arbeit interessieren wir uns für das Zählen von allem, d.h., das Zählen von Objekten aus jeder beliebigen Kategorie, ausgehend von nur wenigen annotierten Instanzen dieser Kategorie. Zu diesem Zweck formulieren wir die Zählung als eine Few-Shot-Regression-Aufgabe. Um diese Aufgabe zu bewältigen, stellen wir eine neuartige Methode vor, die ein Abfragebild zusammen mit wenigen Beispielobjekten aus dem Abfragebild verwendet und eine Dichtekarte für die Anwesenheit aller interessierenden Objekte im Abfragebild vorhersagt. Darüber hinaus präsentieren wir eine neuartige Anpassungsstrategie, um unser Netzwerk zur Laufzeit an jede neue visuelle Kategorie anzupassen, indem es nur wenige Beispielobjekte aus der neuen Kategorie verwendet. Wir führen außerdem einen Datensatz von 147 Objektkategorien ein, der über 6000 Bilder enthält, die für die Few-Shot-Zählungsaufgabe geeignet sind. Die Bilder sind mit zwei Arten von Annotationen versehen: Punkte und Begrenzungsrahmen (bounding boxes), und sie können zur Entwicklung von Few-Shot-Zählungsmodellen genutzt werden. Experimente mit diesem Datensatz zeigen, dass unsere Methode mehrere state-of-the-art-Objekt-Detektoren und Few-Shot-Zählansätze übertreffen. Unser Code und unser Datensatz sind unter https://github.com/cvlab-stonybrook/LearningToCountEverything abrufbar.