HyperAIHyperAI

Command Palette

Search for a command to run...

Offene-Vokabular-Attributenerkennung

María A. Bravo Sudhanshu Mittal Simon Ging Thomas Brox

Zusammenfassung

Das Vision-Language-Modelling ermöglicht offene Vokabularaufgaben, bei denen Vorhersagen mit beliebigen Textanfragen in einem zero-shot-Szenario abgefragt werden können. Bestehende offene Vokabularaufgaben konzentrieren sich auf Objektklassen, während die Forschung zu Objektattributen aufgrund des Mangels an einem verlässlichen attributfokussierten Evaluationsbenchmark begrenzt ist. In dieser Arbeit wird die Aufgabe der Offenen-Vokabular-Attribut-Erkennung (OVAD) sowie der entsprechende OVAD-Benchmark vorgestellt. Das Ziel der neuen Aufgabe und des Benchmarks besteht darin, die auf Objektebene gelernten Attributinformationen von Vision-Language-Modellen zu untersuchen. Zu diesem Zweck haben wir einen sauberen und dicht annotierten Testdatensatz erstellt, der 117 Attributklassen auf den 80 Objektklassen von MS COCO abdeckt. Er enthält positive und negative Annotationen, was eine offene Vokabularevaluation ermöglicht. Insgesamt besteht der Benchmark aus 1,4 Millionen Annotationen. Als Referenz stellen wir eine erste Baselinemethode für die offene Vokabularattributerkennung bereit. Darüber hinaus demonstrieren wir den Wert des Benchmarks durch die Untersuchung der Attributerkennungsleistung mehrerer Grundlagenmodelle (foundation models). Projektseite: https://ovad-benchmark.github.io


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp