Forest R-CNN: Objekterkennung und Instanzsegmentierung mit großem Wortschatz und langen Schwänzen

Trotz des früheren Erfolgs der Objektanalyse bleibt die Erkennung und Segmentierung einer großen Anzahl von Objektkategorien mit einer langschwänzigen Datenverteilung ein herausforderndes Problem, das weniger untersucht wird. Bei einem Klassifikator mit großem Wortschatz ist die Wahrscheinlichkeit, verrauschte Logits zu erhalten, viel höher, was leicht zu einer falschen Erkennung führen kann. In dieser Arbeit nutzen wir Vorwissen über die Beziehungen zwischen Objektkategorien, um feinkörnige Klassen in grobkörnigere Oberklassen zu gruppieren und einen Klassifikationsbaum zu konstruieren, der verantwortlich ist für das Zerlegen eines Objektinstanzes in eine feinkörnige Kategorie über seine Oberklasse. Im Klassifikationsbaum sind die Anzahl der Oberklassenknoten erheblich geringer, sodass ihre Logits weniger verrauscht sind und genutzt werden können, um die falschen/verrauschten Logits in den feinkörnigen Klassifikatorknoten zu unterdrücken. Da die Konstruktion der Oberklasse nicht eindeutig ist, bauen wir mehrere Bäume auf, um einen Klassifikationswald zu bilden, bei dem jeder Baum seine Stimme zur feinkörnigen Klassifizierung beiträgt. Um das durch das langschwänzige Phänomen verursachte unbalancierte Lernen zu lindern, schlagen wir eine einfache aber effektive Resampling-Methode vor: NMS-Resampling (Non-Maximum Suppression Resampling), um die Datenverteilung neu auszugleichen. Unser Verfahren, als Forest R-CNN bezeichnet, kann als Plug-and-Play-Modul in den meisten Objekterkennungsmodelle integriert werden und dient der Erkennung von mehr als 1000 Kategorien. Ausführliche Experimente wurden am Datensatz mit großem Wortschatz LVIS durchgeführt. Verglichen mit dem Baseline-Modell Mask R-CNN verbessert Forest R-CNN die Leistung signifikant um 11,5 % und 3,9 % AP (Average Precision) auf seltenen Kategorien und insgesamt auf allen Kategorien. Darüber hinaus erzielen wir Stand-of-the-Art-Ergebnisse auf dem LVIS-Datensatz. Der Quellcode ist unter https://github.com/JialianW/Forest_RCNN verfügbar.