vor 2 Monaten

OmniCount: Mehrfachbeschriftete Objektzählung mit semantisch-geometrischen Vorwissen

Anindya Mondal; Sauradip Nag; Xiatian Zhu; Anjan Dutta

Abstract

Die Objektzählung ist entscheidend für das Verständnis der Zusammensetzung von Szenen. Früher wurde diese Aufgabe hauptsächlich durch klassenspezifische Methoden beherrscht, die sich allmählich zu flexibleren, klassenunabhängigen Strategien entwickelt haben. Diese Strategien bringen jedoch ihre eigenen Einschränkungen mit sich, wie zum Beispiel die Notwendigkeit manueller Exemplareingabe und mehrerer Durchgänge für verschiedene Kategorien, was zu erheblichen Ineffizienzen führt. In dieser Arbeit wird ein praktischerer Ansatz vorgestellt, der es ermöglicht, mehrere Objekttypen gleichzeitig zu zählen, indem ein offener Vokabularrahmen verwendet wird. Unsere Lösung, OmniCount, zeichnet sich dadurch aus, dass sie semantische und geometrische Erkenntnisse (Priors) von vortrainierten Modellen nutzt, um mehrere Objektkategorien nach Benutzerangaben zu zählen, ohne zusätzliche Trainingsphasen zu benötigen. OmniCount hebt sich durch die Generierung präziser Objektmasken und die Nutzung verschiedener interaktiver Anweisungen über das Segment Anything Modell für eine effiziente Zählung hervor. Um OmniCount zu evaluieren, haben wir den OmniCount-191 Benchmark erstellt, einen einzigartigen Datensatz mit multi-label Objektzählungen, einschließlich Punkte, Begrenzungsrahmen und VQA-Annotierungen. Unsere umfassende Evaluierung im OmniCount-191-Benchmark sowie in anderen führenden Benchmarks zeigt OmnisCounts außergewöhnliche Leistungsfähigkeit auf und übertreffen bestehende Lösungen erheblich. Die Projektwebseite ist unter https://mondalanindya.github.io/OmniCount verfügbar.