Semantische Beziehungsreasoning für schussstabile Few-Shot-Objekterkennung

Die Few-Shot-Objekterkennung ist ein dringendes und langanhaltendes Problem aufgrund der inhärenten langen Schwanzverteilung von realweltlichen Daten. Ihre Leistung wird stark durch die Datenknappheit für neue Klassen beeinflusst. Dennoch bleibt die semantische Beziehung zwischen den neuen Klassen und den Basisklassen konstant, unabhängig von der Verfügbarkeit der Daten. In dieser Arbeit untersuchen wir die Nutzung dieser semantischen Beziehung zusammen mit visuellen Informationen und führen explizites Relationsschließen in das Lernen der Erkennung neuer Objekte ein. Insbesondere stellen wir jedes Klassenkonzept durch eine semantische Einbettung dar, die aus einem großen Textkorpus gelernt wurde. Der Detektor wird trainiert, die Bildrepräsentationen von Objekten in diesen Einbettungsraum zu projizieren. Wir identifizieren auch die Probleme des trivialen Einsatzes roher Einbettungen mit einem heuristischen Wissensgraphen und schlagen vor, die Einbettungen mit einem dynamischen Relationgraphen zu erweitern. Als Ergebnis ist unser Few-Shot-Detektor, bezeichnet als SRR-FSD (Semantic Relation Reasoning for Few-Shot Detection), robust und stabil gegenüber Variationen der Schüsse für neue Objekte. Experimente zeigen, dass SRR-FSD wettbewerbsfähige Ergebnisse bei höheren Schüssen erzielen kann und wichtiger noch, bei sowohl niedriger expliziter als auch impliziter Schüsse eine signifikant bessere Leistung zeigt. Das Benchmark-Protokoll ohne implizite Schüsse im vortrainierten Klassifikationsdatensatz kann als realistischere Einstellung für zukünftige Forschungen dienen.