Robuster Regionen-Feature-Synthesizer für die Null-Shot-Objekterkennung

Die Zero-Shot-Objekterkennung (ZSD) strebt danach, Klassensemantikvektoren zu integrieren, um die Erkennung sowohl gesehener als auch ungesehener Klassen in einem unbeschränkten Testbild zu realisieren. In dieser Studie legen wir die zentralen Herausforderungen in diesem Forschungsbereich offen: Wie kann man robuste Regionmerkmale (für ungesehene Objekte) synthetisieren, die innerhalb der Klasse genauso vielfältig und zwischen den Klassen genauso trennbar sind wie echte Beispiele, sodass darauf basierend starke Detektoren für ungesehene Objekte trainiert werden können? Um diese Herausforderungen anzugehen, entwickeln wir einen neuen ZSD-Framework, das eine Komponente zur innerklassischen semantischen Divergenz und eine Komponente zur zwischenklassischen Strukturbeibehaltung enthält. Die erstgenannte Komponente wird verwendet, um eine ein-zu-mehr-Zuordnung durchzuführen und aus jedem Klassensemantikvektor vielfältige visuelle Merkmale abzuleiten, wodurch das Falschklassifizieren von echten ungesehenen Objekten als Bildhintergrund vermieden wird. Die letztere Komponente dient dazu, zu verhindern, dass die synthetisierten Merkmale zu stark verstreut sind und somit die Beziehungen zwischen den Klassen sowie zwischen Vorder- und Hintergrund gemischt werden. Um die Effektivität des vorgeschlagenen Ansatzes zu demonstrieren, wurden umfassende Experimente auf den Datensätzen PASCAL VOC, COCO und DIOR durchgeführt. Bemerkenswerterweise erreicht unser Ansatz neue Standarte der Technik (state-of-the-art) auf PASCAL VOC und COCO und es ist die erste Studie, die ZSD in Fernerkundungsdaten durchführt.