Attribute als Operatoren: Faktorisieren von unbekannten Attribut-Objekt-Kompositionen

Wir präsentieren einen neuen Ansatz zur Modellierung visueller Attribute. Frühere Arbeiten haben Attribute in einer ähnlichen Rolle wie Objekte betrachtet, wobei eine latente Darstellung gelernt wird, in der Eigenschaften (z.B. geschnitten) durch Klassifizierer erkannt werden, ähnlich wie Objekte (z.B. Apfel). Allerdings versagt dieser übliche Ansatz darin, die während des Trainings beobachteten Attribute von den Objekten zu trennen, mit denen sie zusammengesetzt sind, was ihn ineffektiv macht, wenn es um neue Attribut-Objekt-Kompositionen geht. Stattdessen schlagen wir vor, Attribute als Operatoren zu modellieren. Unser Ansatz lernt eine semantische Einbettung, die Attribute explizit von ihren begleitenden Objekten trennt und auch von neuartigen Regularisierern profitiert, die die Wirkungen von Attributoperatoren ausdrücken (z.B. stumpf sollte die Wirkungen von scharf aufheben). Nicht nur konzeptuell stimmt unser Ansatz mit der sprachlichen Rolle von Attributen als Modifikatoren überein, sondern er verallgemeinert sich auch auf die Erkennung unbekannter Kompositionen von Objekten und Attributen. Wir validieren unseren Ansatz an zwei anspruchsvollen Datensätzen und zeigen signifikante Verbesserungen im Vergleich zum Stand der Technik. Zudem demonstrieren wir, dass unser Modell nicht nur robust unbekannte Kompositionen in einem offenen Weltsetting erkennen kann, sondern auch auf Kompositionen verallgemeinert, bei denen die Objekte selbst während des Trainings nicht gesehen wurden.