CoupleNet: Koppeln der globalen Struktur mit lokalen Teilen für die Objekterkennung

Regionen-basierte Faltungsneuronale Netze (CNN) wie Faster R-CNN oder R-FCN haben bereits vielversprechende Ergebnisse bei der Objekterkennung erzielt, indem sie das Regionenvorschlagsunternetz und das Klassifizierungsunternetz kombinieren. Obwohl R-FCN eine höhere Erkennungsgeschwindigkeit erreicht hat, während die Erkennungsleistung beibehalten wurde, wird die globale Strukturinformation durch die positionsabhängigen Punktzahlkarten (position-sensitive score maps) vernachlässigt. Um sowohl lokale als auch globale Eigenschaften vollständig zu nutzen, schlagen wir in dieser Arbeit ein neues volles Faltungsnetz vor, das CoupleNet genannt wird. CoupleNet verbindet die globale Struktur mit lokalen Teilen für die Objekterkennung. Insbesondere werden die durch das Regionenvorschlagsnetz (RPN) gewonnenen Objektvorschläge in den Kopplungsmodul eingespeist, der aus zwei Zweigen besteht. Ein Zweig verwendet das positionsabhängige RoI-Pooling (PSRoI pooling), um die lokalen Teilinformationen des Objekts zu erfassen, während der andere das RoI-Pooling anwendet, um globale und kontextuelle Informationen zu kodieren. Anschließend entwickeln wir verschiedene Kopplungsstrategien und Normalisierungsmethoden, um die komplementären Vorteile zwischen den globalen und lokalen Zweigen optimal auszunutzen. Ausführliche Experimente belegen die Effektivität unseres Ansatzes. Wir erzielen Stand-des-Dingen-Ergebnisse auf allen drei anspruchsvollen Datensätzen: einen mAP von 82,7 % auf VOC07, 80,4 % auf VOC12 und 34,4 % auf COCO. Der Code wird öffentlich zugänglich gemacht.