Rekurrente Skalenapproximation für die Objekterkennung in CNNs

Da Convolutional Neural Networks (CNNs) kein intrinsisches Mechanismus zur Behandlung großer Skalenvariationen aufweisen, müssen wir in der Praxis für die Multi-Skalen-Objekterkennung die Feature Maps mehrfach berechnen, was zu einer Engpasse im Rechenaufwand führt. Um dieses Problem zu lösen, haben wir einen rekurrenten Skalenapproximationsmechanismus (Recurrent Scale Approximation, RSA) entwickelt, der es ermöglicht, die Feature Map nur einmal zu berechnen und durch diese Map die restlichen Maps auf anderen Ebenen anzunähern. Im Zentrum des RSA steht das rekursive Ausrollungsverfahren: gegeben eine anfängliche Map in einer bestimmten Skala, generiert es eine Vorhersage in einer kleineren Skala, die halb so groß ist wie das Eingabebild. Um Effizienz und Genauigkeit weiter zu steigern, (a): entwerfen wir ein Skalen-Vorhersagenetzwerk, das potentielle Skalen im Bild global vorhersagt, da es nicht notwendig ist, Maps auf allen Ebenen der Pyramide zu berechnen. (b): schlagen wir ein Landmark-Rückverfolgungsnetzwerk (Landmark Retracing Network, LRN) vor, um die Positionen der regressed Landmarks zurückzuverfolgen und für jedes Landmark einen Konfidenzwert zu generieren; das LRN kann effektiv Fehlpositiven reduzieren, die durch den akkumulierten Fehler im RSA verursacht werden. Das gesamte System kann in einem vereinheitlichten CNN-Framework von Anfang bis Ende trainiert werden. Experimente zeigen, dass unser vorgeschlagener Algorithmus bei Benchmarks für Gesichtserkennung den neuesten Methoden überlegen ist und vergleichbare Ergebnisse bei der generischen Vorschlagsgenerierung erzielt. Der Quellcode des RSA ist unter github.com/sciencefans/RSA-for-object-detection verfügbar.