Command Palette
Search for a command to run...
CMS-RCNN: Kontextbasiertes mehrskaliges regionsbasiertes CNN für die unbeschränkte Gesichtserkennung
CMS-RCNN: Kontextbasiertes mehrskaliges regionsbasiertes CNN für die unbeschränkte Gesichtserkennung
Chenchen Zhu* Student, IEEE Yutong Zheng* Student, IEEE Khoa Luu Member, IEEE Marios Savvides Senior Member, IEEE
Zusammenfassung
Robuste Gesichtserkennung unter realen Bedingungen ist eine der wesentlichen Komponenten, die verschiedene Gesichtsbezogene Aufgaben unterstützen, wie z.B. unbeschränkte Personenerkennung durch das Gesicht, Periokularerkennung im Gesichtsbereich, Landmarkierung und Pose-Schätzung von Gesichtern, Erkennung von Gesichtsausdrücken und die Konstruktion von 3D-Gesichtsmodellen. Obwohl das Problem der Gesichtserkennung seit Jahrzehnten intensiv untersucht wurde und zahlreiche kommerzielle Anwendungen existieren, gibt es immer noch Schwierigkeiten in einigen realen Szenarien aufgrund vieler Herausforderungen, wie z.B. starken Überdeckungen des Gesichts, extrem niedriger Auflösungen, starker Beleuchtungsbedingungen, außergewöhnlicher Pose-Variationen sowie Artefakte aus Bild- oder Videokompression. In dieser Arbeit stellen wir einen Ansatz zur Gesichtserkennung vor, den wir Contextual Multi-Scale Region-based Convolutional Neural Network (CMS-RCNN) nennen, um die oben genannten Probleme robust zu lösen. Ähnlich wie bei regionbasierten CNNs besteht unser vorgeschlagenes Netzwerk aus einer Regionenvorschlagskomponente und einer Region-of-Interest (RoI)-Erkennungskomponente. Im Gegensatz zu anderen Netzwerken haben unsere vorgeschlagene Architektur jedoch zwei Hauptbeiträge, die eine entscheidende Rolle bei der Erreichung des aktuellen Standes der Technik in der Gesichtserkennung spielen. Erstens wird die mehrskalige Information sowohl in der Regionenvorschlagsphase als auch in der RoI-Erkennungsphase gruppiert, um kleine Gesichtsbereiche zu behandeln. Zweitens ermöglicht unser vorgeschlagenes Netzwerk explizites Kontextreasoning des Körpers innerhalb des Netzes, inspiriert durch die Intuition des menschlichen Sehsystems. Der vorgeschlagene Ansatz wurde anhand zweier neuerer anspruchsvoller Gesichtserkennungsdatenbanken evaluiert: dem WIDER FACE-Datensatz mit hohem Variabilitätsgrad sowie dem Face Detection Dataset and Benchmark (FDDB). Die experimentellen Ergebnisse zeigen, dass unser vorgeschlagener Ansatz, der auf dem WIDER FACE-Datensatz trainiert wurde, deutlich bessere Ergebnisse als starke Baseline-Methoden auf demselben Datensatz erzielt und konsistent wettbewerbsfähige Ergebnisse auf dem FDDB gegen aktuelle Methoden zur Gesichtserkennung liefert.