Polaritätsverlust für die Null-Shot-Objekterkennung

Konventionelle Objekterkennungsmodelle erfordern große Mengen an Trainingsdaten. Im Gegensatz dazu können Menschen bisher unbekannte Objekte lediglich durch die Kenntnis ihrer semantischen Beschreibung erkennen. Um ein ähnliches Verhalten nachzubilden, zielt Zero-Shot-Objekterkennung darauf ab, unbekannte Objektinstanzen ausschließlich durch ihre semantische Information zu erkennen und zu lokalisieren. Das Modell wird zunächst trainiert, um die Beziehungen zwischen visueller und semantischer Domäne für bekannte Objekte zu lernen, wobei das erworbenes Wissen später auf vollständig unbekannte Objekte übertragen wird. Diese Einstellung führt zu der Notwendigkeit einer korrekten Ausrichtung zwischen visuellen und semantischen Konzepten, sodass unbekannte Objekte nur mit Hilfe ihrer semantischen Attribute identifiziert werden können. In dieser Arbeit schlagen wir eine neue Verlustfunktion vor, die als "Polaritätsverlust" (Polarity loss) bezeichnet wird und eine verbesserte visuelle-semantische Ausrichtung fördert, um die Zero-Shot-Objekterkennung zu verbessern. Einerseits verfeinert sie die verrauschten semantischen Einbettungen durch Metriklernen auf einem "Semantisches Vokabular" (Semantic vocabulary) verwandter Konzepte, um eine bessere Synergie zwischen den visuellen und semantischen Domänen herzustellen. Andererseits maximiert sie explizit den Abstand zwischen positiven und negativen Vorhersagen, um eine bessere Unterscheidbarkeit zwischen bekannten, unbekannten und Hintergrundobjekten zu erreichen. Unser Ansatz stützt sich auf Embodiment-Theorien in der Kognitionsforschung, die behaupten, dass das menschliche semantische Verständnis in früheren Erfahrungen (bekannte Objekte), verwandten sprachlichen Konzepten (Wortvokabular) und visueller Wahrnehmung (Bilder von bekannten/unbekannten Objekten) verankert ist. Wir führen umfangreiche Evaluierungen auf den Datensätzen MS-COCO und Pascal VOC durch und zeigen dabei erhebliche Verbesserungen im Vergleich zum aktuellen Stand der Technik.