Command Palette
Search for a command to run...
Focal Loss für die dichte Objekterkennung
Focal Loss für die dichte Objekterkennung
Zusammenfassung
Bislang höchste Genauigkeit aufweisende Objektdetektoren basieren auf einem zweistufigen Ansatz, der durch R-CNN populär wurde, bei dem ein Klassifikator auf einer spärlichen Menge möglicher Objektlokationen angewendet wird. Im Gegensatz dazu besitzen einstufige Detektoren, die über eine regelmäßige, dichte Abtastung möglicher Objektlokationen eingesetzt werden, das Potenzial, schneller und einfacher zu sein, haben jedoch bisher die Genauigkeit zweistufiger Detektoren verfehlt. In diesem Artikel untersuchen wir, warum dies der Fall ist. Wir entdecken, dass die extremen Ungleichgewichte zwischen Vordergrund- und Hintergrundklassen, die während des Trainings dichter Detektoren auftreten, die zentrale Ursache hierfür sind. Wir schlagen vor, dieses Klassenungleichgewicht durch eine Umformung der herkömmlichen Kreuzentropieverlustfunktion zu beheben, wodurch der Verlust für gut klassifizierte Beispiele abgeschwächt wird. Unsere neuartige Focal Loss lenkt die Trainingsphase auf eine spärliche Menge schwieriger Beispiele und verhindert, dass die große Menge an einfachen Negativen während des Trainings den Detektor überwältigt. Um die Wirksamkeit unserer Verlustfunktion zu evaluieren, entwerfen und trainieren wir einen einfachen dichten Detektor, den wir RetinaNet nennen. Unsere Ergebnisse zeigen, dass RetinaNet, wenn es mit der Focal Loss trainiert wird, die Geschwindigkeit früherer einstufiger Detektoren erreicht und gleichzeitig die Genauigkeit aller bestehenden State-of-the-Art-Zweistufigen Detektoren übertrifft. Der Quellcode ist verfügbar unter: https://github.com/facebookresearch/Detectron.