vor 9 Tagen

Memory-based Jitter: Verbesserung der visuellen Erkennung auf langen-Schwanz-Daten mit Vielfalt im Gedächtnis

Jialun Liu, Jingwei Zhang, Yi yang, Wenhui Li, Chi Zhang, Yifan Sun

Abstract

Diese Arbeit befasst sich mit der tiefen visuellen Erkennung auf langschwänzigen Datensätzen. Um Allgemeingültigkeit zu gewährleisten, betrachten wir zwei Anwendungsszenarien, nämlich tiefe Klassifikation und tiefe metrische Lernverfahren. Unter der Verteilung langschwänziger Daten verfügen die überwiegenden Klassen (d. h. die Schwanzklassen) nur über relativ wenige Proben und sind anfällig für mangelnde innerhalb-Klassen-Diversität. Eine radikale Lösung besteht darin, die Schwanzklassen durch erhöhte Diversität zu ergänzen. Hierfür führen wir eine einfache und zuverlässige Methode namens Memory-based Jitter (MBJ) ein. Wir beobachten, dass während des Trainings das tiefe Modell nach jeder Iteration seine Parameter ständig verändert, was das Phänomen der Gewichtsschwankungen (weight jitters) hervorruft. Daraus folgt, dass bei gleichem Eingabebild zwei historische Versionen des Modells zwei unterschiedliche Merkmale im tiefen Einbettungsraum erzeugen, was als Merkmalschwankungen (feature jitters) bezeichnet wird. Mittels eines Speicherbank-Systems sammeln wir diese (Modell- oder Merkmals-)Schwankungen über mehrere Trainingsiterationen und erhalten den sogenannten Memory-based Jitter. Die akkumulierten Schwankungen erhöhen die innerhalb-Klassen-Diversität der Schwanzklassen und verbessern somit die Leistung bei der langschwänzigen visuellen Erkennung. Durch geringfügige Anpassungen ist MBJ auf zwei grundlegende Aufgaben der visuellen Erkennung anwendbar, nämlich tiefe Bildklassifikation und tiefe metrische Lernverfahren (auf langschwänzigen Daten). Umfangreiche Experimente an fünf Benchmarks für langschwänzige Klassifikation und zwei Benchmarks für tiefe metrische Lernverfahren zeigen eine signifikante Verbesserung. Zudem erreicht die erzielte Leistung auf beiden Aufgaben Niveau mit dem Stand der Technik.