Meta-RCNN: Meta-Lernen für Few-Shot-Objekterkennung

Trotz erheblicher Fortschritte in der Objektdetektion in den letzten Jahren bleibt die Entwicklung wirksamer Detektoren unter Bedingungen geringer Datenmengen ein offenes Problem. Die Annotation von Trainingsdaten für die Objektdetektion ist äußerst kostenaufwendig, weshalb Techniken erforderlich sind, die gut generalisieren können, selbst wenn nur geringe Mengen annotierter Daten verfügbar sind. Wir untersuchen dieses Problem des Few-Shot-Objektdetektions, bei dem ein Detektor nur auf begrenzte Mengen annotierter Daten zugreifen kann. Ausgehend vom kürzlich entwickelten Meta-Learning-Prinzip stellen wir einen neuartigen Meta-Learning-Framework für die Objektdetektion namens „Meta-RCNN“ vor, der die Fähigkeit zur Durchführung von Few-Shot-Detektion mittels Meta-Learning erlernt. Konkret lernt Meta-RCNN einen Objektdetektor in einer episodischen Lernparadigma auf den (Meta-)Trainingsdaten. Dieses Lernschema ermöglicht es, ein Vorwissen zu erwerben, das Meta-RCNN die Durchführung von Few-Shot-Detektion auf neuen Aufgaben erlaubt. Aufbauend auf dem Faster RCNN-Modell werden sowohl das Region Proposal Network (RPN) als auch der Klassifikationszweig für Objekte im Meta-RCNN meta-gelernt. Das meta-gelernte RPN lernt, klassenspezifische Vorschläge zu generieren, während der Objektklassifikator das Lernen von Few-Shot-Klassifikation erlernt. Die neuartigen Verlustfunktionen und das Lernstrategie von Meta-RCNN können end-to-end trainiert werden. Wir zeigen die Wirksamkeit von Meta-RCNN bei der Lösung des Few-Shot-Detektionsproblems am Pascal VOC-Datensatz und erzielen vielversprechende Ergebnisse.