HyperAIHyperAI
vor 2 Monaten

Offene-Vokabular-Attributenerkennung

Bravo, María A. ; Mittal, Sudhanshu ; Ging, Simon ; Brox, Thomas
Offene-Vokabular-Attributenerkennung
Abstract

Das Vision-Language-Modelling ermöglicht offene Vokabularaufgaben, bei denen Vorhersagen mit beliebigen Textanfragen in einem zero-shot-Szenario abgefragt werden können. Bestehende offene Vokabularaufgaben konzentrieren sich auf Objektklassen, während die Forschung zu Objektattributen aufgrund des Mangels an einem verlässlichen attributfokussierten Evaluationsbenchmark begrenzt ist. In dieser Arbeit wird die Aufgabe der Offenen-Vokabular-Attribut-Erkennung (OVAD) sowie der entsprechende OVAD-Benchmark vorgestellt. Das Ziel der neuen Aufgabe und des Benchmarks besteht darin, die auf Objektebene gelernten Attributinformationen von Vision-Language-Modellen zu untersuchen. Zu diesem Zweck haben wir einen sauberen und dicht annotierten Testdatensatz erstellt, der 117 Attributklassen auf den 80 Objektklassen von MS COCO abdeckt. Er enthält positive und negative Annotationen, was eine offene Vokabularevaluation ermöglicht. Insgesamt besteht der Benchmark aus 1,4 Millionen Annotationen. Als Referenz stellen wir eine erste Baselinemethode für die offene Vokabularattributerkennung bereit. Darüber hinaus demonstrieren wir den Wert des Benchmarks durch die Untersuchung der Attributerkennungsleistung mehrerer Grundlagenmodelle (foundation models). Projektseite: https://ovad-benchmark.github.io

Offene-Vokabular-Attributenerkennung | Neueste Forschungsarbeiten | HyperAI