vor 2 Monaten

Auflösen semantischer Verwirrungen zur Verbesserung der Zero-Shot-Erkennung

Sandipan Sarma; Sushil Kumar; Arijit Sur

Abstract

Die Zero-Shot-Detektion (ZSD) ist eine herausfordernde Aufgabe, bei der das Ziel besteht, Objekte gleichzeitig zu erkennen und zu lokalisieren, auch wenn unser Modell nicht mit visuellen Beispielen einiger Zielklassen („unbeobachteter Klassen“) trainiert wurde. Kürzlich haben Methoden, die generative Modelle wie GANs (Generative Adversarial Networks) verwenden, einige der besten Ergebnisse erzielt. Dabei werden unbeobachtete Klassen auf der Grundlage ihrer Semantik durch ein GAN generiert, das mit beobachteten Klassendaten trainiert wurde, wodurch herkömmliche Objekterkennungsmodelle in der Lage sind, unbeobachtete Objekte zu erkennen. Dennoch bleibt das Problem der semantischen Verwechslung bestehen, bei dem das Modell manchmal nicht zwischen semantisch ähnlichen Klassen unterscheiden kann. In dieser Arbeit schlagen wir vor, ein generatives Modell mit einem Triplettenverlust zu trainieren, das den Grad der Unterschiedlichkeit zwischen den Klassen berücksichtigt und diesen in den generierten Beispielen widerspiegelt. Darüber hinaus wird auch ein zyklischer Konsistenzverlust angewendet, um sicherzustellen, dass die generierten visuellen Beispiele einer Klasse stark ihren eigenen Semantiken entsprechen. Ausführliche Experimente auf zwei Benchmark-ZSD-Datensätzen – MSCOCO und PASCAL-VOC – zeigen erhebliche Verbesserungen im Vergleich zu aktuellen ZSD-Methoden, wobei die semantische Verwechslung reduziert und die Erkennung für unbeobachtete Klassen verbessert wird.