Wenn Liebigs Fass auf die Gesichtslandmarkenerkennung trifft: Ein praktisches Modell

In den letzten Jahren wurde erheblicher Fortschritt bei der Forschung zu Gesichtslandmarkendetektion erzielt. Allerdings haben bisher nur wenige Arbeiten umfassend Modelle für praktische Anwendungen diskutiert. Stattdessen konzentrieren sich die meisten Ansätze häufig nur auf die Verbesserung einzelner Aspekte, während andere ignoriert werden. Um diese Lücke zu schließen, zielen wir darauf ab, ein praktikables Modell zu entwickeln, das gleichzeitig genau, robust, effizient, generalisierbar und end-to-end trainierbar ist. Dazu schlagen wir zunächst ein Basismodell vor, das einen Transformer-Decoder als Detektionskopf verwendet. Um die Genauigkeit weiter zu verbessern, führen wir zwei leichte Module ein: dynamische Abfrageinitialisierung (DQInit) und abfrageorientierte Speicherung (QAMem). Insbesondere initialisiert DQInit die Abfragen des Decoders dynamisch aus den Eingabedaten, wodurch das Modell eine vergleichbare Genauigkeit erreicht wie Modelle mit mehreren Decoder-Schichten. QAMem verbessert die Unterscheidungsfähigkeit der Abfragen auf niedrigauflösenden Merkmalskarten, indem jeder Abfrage individuelle Speicherwerte zugewiesen werden, anstatt gemeinsame Werte zu nutzen. Durch die Verwendung von QAMem entfällt der Bedarf an hochauflösenden Merkmalskarten, ohne dass die Genauigkeit leidet. Umfangreiche Experimente und Analysen an drei etablierten Benchmarks belegen die Wirksamkeit und praktischen Vorteile des vorgeschlagenen Modells. Besonders hervorzuheben ist, dass unser Modell sowohl auf WFLW eine neue State-of-the-Art-Leistung erzielt als auch auf 300W und COFW konkurrenzfähige Ergebnisse erzielt, wobei es gleichzeitig mit über 50 FPS läuft.