Kaskadierter Dualer Vision Transformer für Genaue Gesichtspunktdetektion

Die Detektion von Gesichtsmerkmalen ist ein grundlegendes Problem in der Computer Vision, das für viele nachgelagerte Anwendungen von Bedeutung ist. In dieser Arbeit stellen wir einen neuen Gesichtsmerkmaldetektor vor, der auf Vision Transformers basiert und zwei einzigartige Designelemente umfasst: den Dual Vision Transformer (D-ViT) und die Long Skip Connections (LSC). Auf Basis der Beobachtung, dass die Kanal-Dimension von Merkmalskarten im Wesentlichen die linearen Basen des Heatmap-Raums darstellt, schlagen wir vor, die Verbindungen zwischen diesen linearen Basen zu lernen, um die inhärenten geometrischen Beziehungen zwischen den Merkmalen durch einen Channel-split ViT zu modellieren. Wir integrieren diesen Channel-split ViT in den standardmäßigen Vision Transformer (d.h., den Spatial-split ViT), um unseren Dual Vision Transformer zu bilden, der die Vorhersageblöcke bildet. Darüber hinaus empfehlen wir die Verwendung von langen Übersprungerverbindungen (Long Skip Connections), um niederstufige Bildmerkmale an alle Vorhersageblöcke weiterzuleiten und so sicherzustellen, dass nützliche Informationen nicht durch Zwischenüberwachung verworfen werden. Umfangreiche Experimente wurden durchgeführt, um die Leistung unseres Ansatzes auf weit verbreiteten Benchmarks wie WFLW, COFW und 300W zu evaluieren. Die Ergebnisse zeigen, dass unser Modell auf allen drei Benchmarks den bisherigen State-of-the-Art-Methoden überlegen ist.