DAVE -- Ein Detektier-und-Verifizier-Paradigma für Low-Shot-Zählen

Niedrigschuss-Zähler schätzen die Anzahl von Objekten einer ausgewählten Kategorie auf Basis von nur wenigen oder gar keinen annotierten Exemplaren im Bild. Der aktuelle Stand der Technik schätzt die Gesamtanzahl als Summe über die Dichtekarte der Objektstandorte, bietet aber keine individuellen Objektstandorte und -größen, die für viele Anwendungen entscheidend sind. Dies wird durch detektionsbasierte Zähler angegangen, die jedoch in der Genauigkeit der Gesamtzählung zurückbleiben. Darüber hinaus neigen beide Ansätze dazu, die Anzahlen in Gegenwart anderer Objektklassen aufgrund vieler Falschpositiver zu überschätzen. Wir schlagen DAVE vor, einen niedrigschuss-Zähler basierend auf einem Detektions-und-Verifikations-Paradigma, der die genannten Probleme vermeidet, indem er zunächst eine hochrekallige Detektionsmenge generiert und dann die Detektionen verifiziert, um Ausreißer zu identifizieren und zu entfernen. Dies erhöht gleichzeitig den Rekall und die Präzision, was zu genauen Zählungen führt. DAVE übertrifft die besten dichtebasierten Zähler um etwa 20 % im Gesamtzählungsfehler (MAE) und übertreffen den neuesten detektionsbasierten Zähler um etwa 20 % in der Detektionsqualität. Er setzt außerdem einen neuen Stand der Technik sowohl im Nullschuss- als auch im textbasierten Zählen.请注意,这里“零-shot”被翻译为“Nullschuss”,而“text-prompt-based”则翻译为“textbasiert”。这些术语在德语中也有相应的专业表达。如果有特定的行业术语偏好,请告知我以便进一步调整。