Cops-Ref-Datensatz Zum Verständnis Von Objektreferenzen
Datum
vor 2 Jahren
Veröffentlichungs-URL
Lizenz
其他
Kategorien

Cops-Ref steht für Compositional Referring Expression Comprehension und ist ein Bilddatensatz zum visuellen Verständnis von Zielobjektreferenzen. Der Datensatz enthält 75.299 reale Bilder, 148.712 Textbeschreibungen und 1.307.885 Kandidatenregionen.
Dieser Datensatz hat zwei Hauptmerkmale. Eine davon ist eine neue Textgenerierungs-Engine, die logisches Denken und visuelle Merkmale kombinieren kann, um Textbeschreibungen mit unterschiedlichen Komplexitätsgraden zu generieren. Zum anderen handelt es sich um eine neue Testeinstellung, die während des Tests mit semantisch ähnlichen visuellen Bildern interferiert.