Dynamisches Few-Shot-Visuelles Lernen ohne Vergessen

Das menschliche visuelle System besitzt die bemerkenswerte Fähigkeit, neue Konzepte nahezu mühelos aus nur wenigen Beispielen zu lernen. Die Nachahmung dieses Verhaltens in maschinellen Lernsystemen für visuelle Anwendungen ist ein interessantes und sehr anspruchsvolles Forschungsproblem, das viele praktische Vorteile in der Realität bietet. In diesem Kontext besteht das Ziel unserer Arbeit darin, ein Few-Shot-Visuelles-Lernsystem zu entwickeln, das während der Testphase effizient neue Kategorien aus nur wenigen Trainingsdaten lernen kann, ohne dabei die ursprünglichen Kategorien zu vergessen, auf denen es trainiert wurde (hier als Basis-Kategorien bezeichnet).Um dieses Ziel zu erreichen, schlagen wir vor:(a) ein Objekterkennungssystem um einen aufmerksamkeitsbasierten Few-Shot-Klassifikationsgewichtsgenerator zu erweitern,(b) den Klassifizierer eines ConvNet-Modells neu zu gestalten, indem die Cosinus-Ähnlichkeitsfunktion zwischen Merkmalsrepräsentationen und Klassifikationsgewichtsvektoren verwendet wird.Die zweite Maßnahme führt nicht nur zur Vereinheitlichung der Erkennung von neuen und Basis-Kategorien, sondern verbessert auch die Merkmalsrepräsentationen, sodass sie sich besser auf „unbeobachtete“ Kategorien verallgemeinern. Wir evaluieren unseren Ansatz umfangreich anhand des Mini-ImageNet-Datensatzes und gelingen es, den bisherigen Stand der Technik bei Few-Shot-Erkennung zu verbessern (d.h., wir erreichen 56,20 % und 73,00 % bei den 1-Schuss- und 5-Schuss-Einstellungen). Gleichzeitig opfern wir keine Genauigkeit für die Basis-Kategorien, was eine Eigenschaft ist, die die meisten früheren Ansätze nicht bieten. Schließlich wenden wir unseren Ansatz auf dem kürzlich eingeführten Few-Shot-Benchmark von Bharath und Girshick [4] an und erzielen auch hier standesüberragende Ergebnisse. Der Code und die Modelle unseres Papers werden veröffentlicht unter: https://github.com/gidariss/FewShotWithoutForgetting