
얼굴 분석은 눈, 코, 머리카락 등 주요 얼굴 영역으로 인간의 얼굴을 의미론적으로 분할하는 것을 의미합니다. 이는 얼굴 편집, 얼굴 교체, 화장 등의 다양한 고급 응용 프로그램의 전제 조건으로 작용하며, 이러한 응용 프로그램들은 종종 안경, 모자, 귀걸이, 목걸이와 같은 클래스의 분할 마스크를 필요로 합니다. 이러한 드물게 발생하는 클래스들을 긴 꼬리 클래스(long-tail classes)라고 하며, 더 자주 발생하는 클래스들인 머리 클래스(head classes)에 의해 그 중요성이 가려지는 경우가 많습니다. 기존 방법들은 주로 CNN 기반이며, 학습 과정에서 머리 클래스에 지배되는 경향이 있어 긴 꼬리 클래스의 표현이 부적절해질 수 있습니다. 이전 연구들은 긴 꼬리 클래스의 빈약한 분할 성능 문제를 크게 간과해 왔습니다. 이를 해결하기 위해 우리는 SegFace라는 단순하면서도 효율적인 접근 방식을 제안합니다. SegFace는 가벼운 트랜스포머 기반 모델을 사용하여 학습 가능한 클래스별 토큰(learnable class-specific tokens)을 활용합니다. 트랜스포머 디코더는 클래스별 토큰을 활용하여 각 토큰이 해당하는 클래스에 집중할 수 있도록 하여, 각각의 클래스를 독립적으로 모델링할 수 있게 합니다. 제안된 접근 방식은 긴 꼬리 클래스의 성능을 개선함으로써 전체 성능을 향상시킵니다. 우리所知,SegFace는 처음으로 트랜스포머 모델을 얼굴 분석에 적용한 작업입니다. 또한 우리의 접근 방식은 저사양 엣지 장치에서도 적응 가능하며, 95.96 FPS를 달성하였습니다. 우리는 광범위한 실험을 통해 SegFace가 이전 최신 모델들보다 크게 우수함을 입증하였으며, CelebAMask-HQ 데이터셋에서는 평균 F1 점수가 88.96(+2.82), LaPa 데이터셋에서는 93.03(+0.65)를 기록하였습니다.코드: https://github.com/Kartik-3004/SegFace注:在最后一段中,“据我们所知”被误译为“우里所知”,正确的翻译应该是“우리가 아는 한”。以下是修正后的版本:얼굴 분석은 눈, 코, 머리카락 등 주요 얼굴 영역으로 인간의 얼굴을 의미론적으로 분할하는 것을 의미합니다. 이는 얼굴 편집, 얼굴 교체, 화장 등의 다양한 고급 응용 프로그램의 전제 조건으로 작용하며, 이러한 응용 프로그램들은 종종 안경, 모자, 귀걸이, 목걸이와 같은 클래스의 분할 마스크를 필요로 합니다. 이러한 드물게 발생하는 클래스들을 긴 꼬리 클래스(long-tail classes)라고 하며, 더 자주 발생하는 클래스들인 머리 클래스(head classes)에 의해 그 중요성이 가려지는 경우가 많습니다. 기존 방법들은 주로 CNN 기반이며, 학습 과정에서 머리 클래스에 지배되는 경향이 있어 긴 꼬리 클래스의 표현이 부적절해질 수 있습니다. 이전 연구들은 긴 꼬리 클래스의 빈약한 분할 성능 문제를 크게 간과해 왔습니다. 이를 해결하기 위해 우리는 SegFace라는 단순하면서도 효율적인 접근 방식을 제안합니다. SegFace는 가벼운 트랜스포머 기반 모델을 사용하여 학습 가능한 클래스별 토큰(learnable class-specific tokens)을 활용합니다. 트랜스포머 디코더는 클래스별 토큰을 활용하여 각 토큰이 해당하는 클래스에 집중할 수 있도록 하여, 각각의 클래스트를 독립적으로 모델링할 수 있게 합니다. 제안된 접근 방식은 긴 꼬리 클래스트의 성능을 개선함으로써 전체 성능을 향상시킵니다. 우리가 아는 한 SegFace는 처음으로 트랜스포머 모델을 얼굴 분석에 적용한 작업입니다. 또한 우리의 접근 방식은 저사양 엣지 장치에서도 적응 가능하며, 95.96 FPS를 달성하였습니다. 우리는 광범위한 실험을 통해 SegFace가 이전 최신 모델들보다 크게 우수함을 입증하였으며, CelebAMask-HQ 데이터셋에서는 평균 F1 점수가 88.96(+2.82), LaPa 데이터셋에서는 93.03(+0.65)를 기록하였습니다.코드: https://github.com/Kartik-3004/SegFace