Supervision-by-Registration: Ein unüberwachter Ansatz zur Verbesserung der Genauigkeit von Gesichtspunktdetektoren

In dieser Arbeit stellen wir Supervision-by-Registration vor, einen unüberwachten Ansatz zur Verbesserung der Genauigkeit von Gesichtspunktdetektoren sowohl auf Bildern als auch in Videos. Unser zentrales Beobachtungsmerkmal ist, dass die Detektionen des gleichen Landmarks in benachbarten Frames konsistent mit der Registrierung, d.h. dem optischen Fluss, sein sollten. Faszinierenderweise ist die Konsistenz des optischen Flusses eine Quelle der Überwachung, die keine manuelle Beschriftung erfordert und während des Trainings der Detektoren genutzt werden kann. Zum Beispiel können wir in der Trainingsverlustfunktion verlangen, dass ein detektierte Landmark im Frame${t-1}$, gefolgt von einer optischen Flussverfolgung vom Frame${t-1}$ zum Frame$t$, mit der Position der Detektion im Frame${t}$ übereinstimmt. Im Wesentlichen erweitert Supervision-by-Registration die Trainingsverlustfunktion um einen Registrierungsverlust, sodass der Detektor nicht nur nahe an den Annotationen in beschrifteten Bildern trainiert wird, sondern auch konsistent mit der Registrierung auf großen Mengen unbeschrifteter Videos. Durch eine differenzierbare Lucas-Kanade-Operation wird das end-to-end-Training mit dem Registrierungsverlust möglich gemacht. Diese Operation berechnet den optischen Fluss in der Vorwärtsdurchlaufphase und rückpropagiert Gradienten, die temporale Konsistenz im Detektor fördern. Das Ergebnis unserer Methode ist ein präziserer bildbasierter Gesichtspunktdetektor, der sowohl auf einzelnen Bildern als auch auf Videos angewendet werden kann. Mit Supervision-by-Registration zeigen wir (1) Verbesserungen bei der Gesichtspunkt-Detektion sowohl auf Bildern (300W, ALFW) als auch in Videos (300VW, Youtube-Celebrities) und (2) eine erhebliche Reduzierung des Ruckelns in Video-Detektionen.