HyperAIHyperAI
vor 2 Monaten

Focal Loss für die dichte Objekterkennung

Lin, Tsung-Yi ; Goyal, Priya ; Girshick, Ross ; He, Kaiming ; Dollár, Piotr
Focal Loss für die dichte Objekterkennung
Abstract

Die bislang genauesten Objekterkennungssysteme basieren auf einem zweistufigen Ansatz, der durch R-CNN populär wurde, bei dem ein Klassifikator auf eine dünne Menge von potentiellen Objektstandorten angewendet wird. Im Gegensatz dazu haben einstufige Erkennungssysteme, die über eine regelmäßige, dichte Abtastung möglicher Objektstandorte angewendet werden, das Potenzial schneller und einfacher zu sein, bisher jedoch in Genauigkeit hinter den zweistufigen Systemen zurückgeblieben. In dieser Arbeit untersuchen wir, warum dies der Fall ist. Wir entdecken, dass das extrem ungleiche Verhältnis zwischen Vordergrund- und Hintergrundklassen während des Trainings dichter Erkennungssysteme die zentrale Ursache darstellt. Wir schlagen vor, dieses Klassenungleichgewicht zu bekämpfen, indem wir die Standard-Kreuzentropieverlustfunktion so umgestalten, dass sie den Verlust für gut klassifizierte Beispiele heruntersetzt. Unser neuartiger Fokalverlust (Focal Loss) konzentriert das Training auf eine dünne Menge schwieriger Beispiele und verhindert, dass die große Anzahl leicht negativer Beispiele den Detektor während des Trainings überwältigt. Um die Effektivität unseres Verlusts zu evaluieren, entwerfen und trainieren wir einen einfachen dichten Detektor, den wir RetinaNet nennen. Unsere Ergebnisse zeigen, dass RetinaNet beim Training mit dem Fokalverlust in der Lage ist, die Geschwindigkeit früherer einstufiger Detektoren zu erreichen und gleichzeitig die Genauigkeit aller existierenden erstklassigen zweistufigen Detektoren zu übertreffen. Der Quellcode befindet sich unter: https://github.com/facebookresearch/Detectron.