BBN: Bilaterale Netzwerk mit kumulativem Lernen für die langschwänzige visuelle Erkennung

Unsere Arbeit konzentriert sich auf die anspruchsvolle, aber natürliche Aufgabe der visuellen Erkennung bei langen Schwanz-Verteilungen (d. h. wenige Klassen besitzen die überwiegende Mehrheit der Daten, während die meisten Klassen nur sehr wenige Beispiele aufweisen). In der Literatur stellen Klassen-„Rebalancing“-Strategien (z. B. Gewichtsrebalancierung und Re-Sampling) die dominierenden und wirksamen Ansätze dar, um das extreme Ungleichgewicht bei langen Schwanz-Problemen zu mildern. In dieser Arbeit entdecken wir erstmals, dass die zufriedenstellende Erkennungsgenauigkeit, die durch diese Rebalancierungsmethoden erzielt wird, darauf zurückzuführen ist, dass sie das Lernen des Klassifizierers in tiefen Netzwerken erheblich fördern. Gleichzeitig schädigen diese Methoden jedoch unerwarteterweise die Repräsentationsfähigkeit der gelernten tiefen Merkmale in gewissem Maße. Daher schlagen wir ein einheitliches Bilateral-Branch-Netzwerk (BBN) vor, das gleichzeitig die Merkmalsrepräsentation und das Klassifizierer-Lernen berücksichtigt, wobei jeder Zweig jeweils seine spezifische Aufgabe eigenständig erfüllt. Insbesondere wird unser BBN-Modell durch eine neuartige kumulative Lernstrategie ergänzt, die darauf abzielt, zunächst universelle Muster zu lernen und anschließend schrittweise die Fokussierung auf die selteneren Klassen zu verlagern. Umfangreiche Experimente an vier Benchmark-Datensätzen, darunter der großskalige iNaturalist-Datensatz, belegen, dass das vorgeschlagene BBN die derzeit besten Methoden signifikant übertrifft. Zudem bestätigen Validierungsexperimente sowohl unsere vorläufige Entdeckung als auch die Wirksamkeit der maßgeschneiderten Entwürfe im BBN für Probleme mit langen Schwanz-Verteilungen. Unser Ansatz erreichte den ersten Platz im iNaturalist 2019-Wettbewerb zur großen Skala Spezies-Klassifikation, und der Quellcode ist öffentlich zugänglich unter https://github.com/Megvii-Nanjing/BBN.