12일 전

EHANet: 얼굴 분할을 위한 효과적인 계층적 집계 네트워크

{Xinglong Feng, Dingyu Xue, Ling Luo}
초록

최근 몇 년간 깊은 합성곱 신경망(DCNNs)의 발전 덕분에 얼굴 파싱(face parsing) 기술은 급속도로 발전해왔다. 그러나 여전히 다음과 같은 문제점이 존재한다: (1) 기존 최첨단 프레임워크들은 성능을 극대화하기 위해 실시간 처리를 충족하지 못하는 경우가 많다; (2) 유사한 외관으로 인해 특히 경계 영역에서 픽셀 레이블 할당이 잘못되는 현상이 발생한다; (3) 다중 스케일 예측을 향상시키기 위해 깊은 특징과 얕은 특징을 융합하지만, 이들 사이의 의미적 차이(semantic gap)를 고려하지 않는다. 이러한 단점을 극복하기 위해, 우리는 빠르고 정확한 얼굴 파싱을 위한 효과적이고 효율적인 계층적 집계 네트워크(EHANet)를 제안한다. 구체적으로, 먼저 고수준의 맥락 정보를 활용하여 채널을 중요도에 따라 재인코딩하는 스테이지 컨텍스트 주의 메커니즘(SCAM)을 제안한다. 둘째, 계층적 정보의 효과적인 융합을 보장하기 위해 의미적 갭 보정 블록(SGCB)을 도입한다. 셋째, 가중치가 부여된 경계 인식 손실(Weighted boundary-aware loss)의 장점을 활용하여 경계 영역의 의미 모호성을 효과적으로 보완한다. 복잡한 기법 없이도 경량 백본(lightweight backbone)과 결합함으로써, CelebAMask-HQ 데이터셋(78.19% mIoU)과 Helen 데이터셋(90.7% F1-score)에서 뛰어난 성능을 달성하였다. 또한, 단일 GTX 1080Ti 카드에서 입력 해상도가 640 × 640일 경우 55 FPS의 처리 속도를, 해상도가 256 × 256일 경우 300 FPS 이상의 속도를 달성할 수 있어 실용적인 응용에 적합하다.

EHANet: 얼굴 분할을 위한 효과적인 계층적 집계 네트워크 | 최신 연구 논문 | HyperAI초신경