vor 11 Tagen

Meta R-CNN: Hin zum allgemeinen Löser für instanzbasierte Few-shot-Lernprozesse

Xiaopeng Yan, Ziliang Chen, Anni Xu, Xiaoxi Wang, Xiaodan Liang, Liang Lin

Abstract

Ähnlich der schnellen Lernfähigkeit des Menschen ermöglicht Few-Shot-Lernen Visionssystemen, neue Konzepte durch Training mit wenigen Beispielen zu verstehen. Führende Ansätze basieren auf Meta-Lernen und behandeln Bilder mit jeweils nur einem visuellen Objekt. Aufgrund von verwaschenen Hintergründen und mehreren Objekten innerhalb eines Bildes sind diese Ansätze jedoch schwer zu übertragen auf die Forschung zu Few-Shot-Objektdetektion und -Segmentierung. In dieser Arbeit präsentieren wir eine flexible und allgemeine Methodologie, um diese Aufgaben zu bewältigen. Unser Ansatz erweitert Faster-/Mask R-CNN, indem er Meta-Lernen über RoI-(Region-of-Interest)-Merkmale statt über vollständige Bildmerkmale vorschlägt. Dieser einfache Ansatz entkoppelt die mit dem Hintergrund vermischten Mehrfachobjektinformationen ohne aufwändige Zusatzkomponenten und ermöglicht es Faster-/Mask R-CNN, sich als Meta-Lerner zu verhalten, um die Aufgaben zu erfüllen. Konkret führen wir ein Predictor-Head Remodeling Network (PRN) ein, das seinen Haupt-Backbone gemeinsam mit Faster-/Mask R-CNN nutzt. Das PRN erhält Bilder mit Few-Shot-Objekten sowie deren Bounding Boxes oder Masken und schätzt deren klassenbezogene Aufmerksamkeitsvektoren vor. Diese Vektoren üben eine kanalweise Soft-Attention auf die RoI-Merkmale aus und remodeln die Predictor-Head-Teile von R-CNN, um Objekte zu detektieren oder zu segmentieren, die mit den Klassen übereinstimmen, die diese Vektoren repräsentieren. In unseren Experimenten erreicht Meta R-CNN den Stand der Technik bei Few-Shot-Objektdetektion und verbessert die Few-Shot-Objektsegmentierung im Vergleich zu Mask R-CNN.