OvarNet: Auf dem Weg zur offenen Vokabular-Objektattributerkennung

In dieser Arbeit betrachten wir das Problem der gleichzeitigen Objekterkennung und Inferenz ihrer visuellen Attribute in einem Bild, auch für solche, die während des Trainingskeils keine manuellen Annotationen bereitgestellt werden, was einer offenen Vokabularsituation ähnelt. Um dieses Ziel zu erreichen, leisten wir folgende Beiträge: (i) Wir beginnen mit einem naiven zweistufigen Ansatz für die offene Vokabular-Objekterkennung und -Attributklassifizierung, dem sogenannten CLIP-Attr. Die Kandidatenobjekte werden zunächst durch einen Offline-RPN vorgeschlagen und anschließend für die semantische Kategorie und die Attribute klassifiziert; (ii) Wir kombinieren alle verfügbaren Datensätze und trainieren mit einer föderierten Strategie, um das CLIP-Modell zu feintunen, wobei wir die visuelle Darstellung mit den Attributen ausrichten. Zudem untersuchen wir die Effektivität des Einsatzes frei verfügbarer Online-Bild-Beschreibungs-Paare unter schwach überwachtem Lernen; (iii) Im Streben nach Effizienz trainieren wir ein Modell vom Typ Faster-RCNN von Anfang bis Ende mit Wissensdistillierung, das klassenunabhängige Objektvorschläge macht und die Klassifikation auf semantische Kategorien und Attribute durchführt, wobei die Klassifikatoren von einem Textencoder generiert werden; Schließlich (iv) führen wir umfangreiche Experimente auf den Datensätzen VAW, MS-COCO, LSA und OVAD durch und zeigen, dass die Erkennung von semantischen Kategorien und Attributen ergänzend für das Verständnis visueller Szenen ist. Das gemeinsame Training von Objekterkennung und Attributvorhersage übertrifft bestehende Ansätze, die diese beiden Aufgaben unabhängig behandeln deutlich, was eine starke Generalisierbarkeit auf neue Attribute und Kategorien demonstriert.