HyperAIHyperAI
vor 11 Tagen

Offenwelt-Textspezifische Objektzählung

Niki Amini-Naieni, Kiana Amini-Naieni, Tengda Han, Andrew Zisserman
Offenwelt-Textspezifische Objektzählung
Abstract

Unser Ziel ist die Zählung von Objekten in offenen Welten anhand von Bildern, wobei die Zielobjektklasse durch eine Textbeschreibung spezifiziert wird. Hierzu präsentieren wir CounTX, ein klassenunabhängiges, einstufiges Modell, das auf vortrainierten gemeinsamen Text-Bild-Repräsentationen basiert und einen Transformer-Decoder als Zählkopf verwendet. CounTX ist in der Lage, die Anzahl von Instanzen jeder beliebigen Klasse zu zählen, wenn lediglich ein Bild und eine Textbeschreibung der Zielobjektklasse vorliegen, und kann end-to-end trainiert werden. Neben diesem Modell leisten wir folgende Beiträge: (i) Wir vergleichen die Leistung von CounTX mit vorhergehenden Ansätzen zur Zählung von Objekten in offenen Welten und zeigen, dass unser Ansatz auf allen Metriken des FSC-147-Benchmarks die bisher beste Leistung erzielt, insbesondere für Methoden, die Text zur Spezifikation der Aufgabe verwenden; (ii) Wir stellen FSC-147-D vor und veröffentlichen es als erweiterte Version von FSC-147 mit ausführlichen Textbeschreibungen, sodass Objektklassen nun detaillierter beschrieben werden können als nur durch einfache Klassennamen. FSC-147-D und der zugehörige Code sind unter https://www.robots.ox.ac.uk/~vgg/research/countx verfügbar.

Offenwelt-Textspezifische Objektzählung | Neueste Forschungsarbeiten | HyperAI