Offenes Vokabular Attributenerkennung | SOTA | HyperAI

Open-Vocabulary-Attributenerkennung (OVAD) ist eine Aufgabe im Bereich der Computer Vision, die darauf abzielt, eine Reihe von offenen Objekten und deren zugehörige Attribute in Bildern zu erkennen und zu klassifizieren. Diese Aufgabe ermöglicht eine flexible Erkennung und Klassifizierung unbekannter Kategorien, indem Objekte und Attribute zur Inferenzzeit durch Textanfragen definiert werden, ohne dass die Testkategorien im Voraus während der Trainingsphase bekannt sein müssen. Dadurch besitzt OVAD eine erhebliche Anwendungswertigkeit.

OVAD-Box benchmark

OvarNet (ViT-B16)