HyperAIHyperAI
vor 2 Monaten

Lernen von reichen Semantiken und groben Orten für die Erkennung von langschwänzigen Objekten

Lingchen Meng; Xiyang Dai; Jianwei Yang; Dongdong Chen; Yinpeng Chen; Mengchen Liu; Yi-Ling Chen; Zuxuan Wu; Lu Yuan; Yu-Gang Jiang
Lernen von reichen Semantiken und groben Orten für die Erkennung von langschwänzigen Objekten
Abstract

Die Erkennung von langschwänzigen Objekten (LTOD) strebt danach, das extrem ungleiche Datenverhältnis in realen Datensätzen zu bewältigen, bei denen viele Klassen mit wenigen Instanzen vertreten sind. Eine weit verbreitete Strategie besteht darin, zusätzliche Daten mit bildbasierten Labels zu nutzen, was jedoch aufgrund folgender Gründe begrenzte Ergebnisse liefert: (1) semantische Unklarheiten – ein bildbasiertes Label erfasst nur einen auffälligen Teil des Bildes und ignoriert die übrigen reichen Semantiken innerhalb des Bildes; und (2) Standortempfindlichkeit – das Label hängt stark von den Positionen und Ausschnitten des ursprünglichen Bildes ab, die sich nach Datenverwandlungen wie zufälligem Ausschneiden ändern können.Um dieses Problem zu beheben, schlagen wir RichSem vor, eine einfache aber effektive Methode, die es ermöglicht, reiche Semantiken aus groben Positionen robust zu lernen, ohne genaue Bounding-Boxen zu benötigen. RichSem nutzt die reichen Semantiken aus Bildern als zusätzliche weiche Überwachung für das Training der Detektoren. Insbesondere fügen wir unserem Detektor einen semantischen Ast hinzu, um diese weichen Semantiken zu lernen und die Merkmalsrepräsentationen für die Erkennung von langschwänzigen Objekten zu verbessern. Der semantische Ast wird ausschließlich während des Trainings verwendet und beim Inferenzprozess entfernt. RichSem erreicht konsistente Verbesserungen sowohl im Gesamtergebnis als auch in der seltenen Kategorie des LVIS-Datensatzes unter Verwendung verschiedener Backbones und Detektoren. Unsere Methode erzielt den aktuellen Stand der Technik ohne komplexe Trainings- und Testverfahren. Darüber hinaus zeigen wir durch zusätzliche Experimente die Effektivität unserer Methode an anderen langschwänzigen Datensätzen. Der Quellcode ist unter \url{https://github.com/MengLcool/RichSem} verfügbar.