HyperAIHyperAI
vor 3 Monaten

Sofortantwort Few-shot Objektdetektion mit Meta-Strategie und expliziter Lokalisierungsinferenz

Junying Huang, Fan Chen, Sibo Huang, Dongyu Zhang
Sofortantwort Few-shot Objektdetektion mit Meta-Strategie und expliziter Lokalisierungsinferenz
Abstract

Ziel ist die Erkennung und Lokalisierung von Objekten neuartiger Kategorien anhand nur weniger Referenzbeispiele, wodurch Few-Shot Object Detection (FSOD) zu einer äußerst herausfordernden Aufgabe wird. Bisherige Ansätze stützen sich oft auf einen Feinabstimmungsprozess, um das Modell auf die neuartige Kategorie zu übertragen, und berücksichtigen selten die damit verbundenen Nachteile der Feinabstimmung, was zu zahlreichen praktischen Einschränkungen führt. Beispielsweise sind diese Methoden in Szenarien mit wechselnden Episoden aufgrund einer übermäßigen Anzahl von Feinabstimmungsschritten weit von einer zufriedenstellenden Leistung entfernt, und ihre Genauigkeit sinkt stark bei niedrigwertigen (z. B. Low-Shot- und Klassen-incomplet-Unterstützungssätzen). Um dies zu beheben, schlagen wir einen sofort reagierenden Few-Shot Object Detector (IR-FSOD) vor, der Objekte neuartiger Kategorien präzise und direkt ohne Feinabstimmungsprozess erkennt. Um dieses Ziel zu erreichen, analysieren wir systematisch die Defizite einzelner Module im Faster R-CNN-Framework im Kontext von FSOD und erweitern es anschließend durch gezielte Verbesserungen zu IR-FSOD. Konkret stellen wir zwei einfache, aber wirksame Meta-Strategien für den Box-Klassifikator und das RPN-Modul vor, um die Erkennung neuartiger Kategorien mit sofortiger Reaktion zu ermöglichen. Darüber hinaus führen wir zwei explizite Inferenzmechanismen im Lokalisationsmodul ein, um dessen Überanpassung an Basis-Kategorien zu verringern, darunter eine explizite Lokalisierungsskala und eine semi-explizite Box-Regression. Umfangreiche Experimente zeigen, dass das IR-FSOD-Framework nicht nur eine Few-Shot-Objekterkennung mit sofortiger Reaktion ermöglicht, sondern auch im Hinblick auf Präzision und Recall eine state-of-the-art-Leistung unter verschiedenen FSOD-Szenarien erzielt.

Sofortantwort Few-shot Objektdetektion mit Meta-Strategie und expliziter Lokalisierungsinferenz | Forschungsarbeiten | HyperAI