HyperAIHyperAI
vor 2 Monaten

SegFace: Gesichtssegmentierung von Long-Tail-Klassen

Narayan, Kartik ; VS, Vibashan ; Patel, Vishal M.
SegFace: Gesichtssegmentierung von Long-Tail-Klassen
Abstract

Das Gesichtsparsing bezieht sich auf die semantische Segmentierung von menschlichen Gesichtern in wichtige Gesichtsregionen wie Augen, Nase, Haare usw. Es dient als Voraussetzung für verschiedene fortgeschrittene Anwendungen, darunter Gesichtsbearbeitung, Gesichtsaustausch und Make-up, die oft Segmentierungsmasken für Klassen wie Brillen, Hüte, Ohrringe und Halsketten benötigen. Diese selten auftretenden Klassen werden als Long-Tail-Klassen bezeichnet und werden von häufiger vorkommenden Klassen, bekannt als Head-Klassen, überschattet. Bestehende Methoden, hauptsächlich auf CNN basierend, neigen dazu, während des Trainings von Head-Klassen dominiert zu werden, was zu einer suboptimalen Darstellung der Long-Tail-Klassen führt. Frühere Arbeiten haben das Problem der schlechten Segmentierungsleistung der Long-Tail-Klassen weitgehend vernachlässigt. Um dieses Problem anzugehen, schlagen wir SegFace vor, einen einfachen und effizienten Ansatz, der ein leichtgewichtiges transformerbasiertes Modell verwendet, das lernfähige klassenspezifische Token nutzt. Der Transformer-Dekoder nutzt klassenspezifische Token, wodurch jedes Token sich auf seine entsprechende Klasse konzentrieren kann und somit eine unabhängige Modellierung jeder Klasse ermöglicht wird. Der vorgeschlagene Ansatz verbessert die Leistung der Long-Tail-Klassen und damit die gesamte Leistung. Nach unserem Wissen ist SegFace das erste Werk, das Transformer-Modelle für das Gesichtsparsing einsetzt. Darüber hinaus kann unser Ansatz für Low-Compute Edge-Geräte angepasst werden und erreicht 95,96 FPS (Frames pro Sekunde). Wir führen umfangreiche Experimente durch, die zeigen, dass SegFace erheblich besser abschneidet als bisherige state-of-the-art Modelle und auf dem CelebAMask-HQ Datensatz einen mittleren F1-Score von 88,96 (+2,82) sowie auf dem LaPa Datensatz einen Score von 93,03 (+0,65) erreicht. Quellcode: https://github.com/Kartik-3004/SegFace