18일 전

ATF: 다양한 데이터셋 간 유사성과 다양성을 활용한 강건한 얼굴 정렬 방향

{Jian Cheng, Cong Leng, Fangzhou Xiong, Qinghao Hu, Xing Lan}
초록

얼굴 정렬은 멀티미디어 분야에서 중요한 과제이다. 알고리즘의 놀라운 발전과 함께 최근에는 다양한 벤치마크 데이터셋이 공개되고 있다. 직관적으로, 서로 다른 레이블 정보를 가진 여러 레이블 데이터셋을 통합함으로써 목표 랜드마크 탐지기의 성능을 향상시키는 것은 의미 있는 접근이다. 비록 최근 연구에서 공동 사용에 대한 다수의 노력이 이루어졌지만, 여전히 세 가지 한계가 존재한다. 즉, 추가적인 계산 부담, 마크업 방식의 제약, 그리고 회귀 방법에 대한 제한된 지원이다. 이러한 문제들을 해결하기 위해 우리는 다중 미디어 소스 간의 유사성과 다양성을 활용하여 보다 강건한 탐지기를 구현하는 새로운 대체 학습 프레임워크(Alternating Training Framework, ATF)를 제안한다. 본 프레임워크는 주로 두 가지 하위 모듈로 구성된다: 감소 비율을 적용한 대체 학습(Alternating Training with Decreasing Proportions, ATDP)과 혼합 브랜치 손실(Mixed Branch Loss, $\mathcal{L}{MB}$). 특히 ATDP는 여러 데이터셋을 동시에 학습시켜 서로 다른 데이터셋 간의 다양성을 효과적으로 활용하며, $\mathcal{L}{MB}$는 유사한 랜드마크 쌍을 이용해 각 데이터셋에 대응하는 서로 다른 브랜치를 제약한다. 다양한 벤치마크에서 수행된 광범위한 실험 결과는 본 프레임워크의 효과성을 입증하며, ATF는 히트맵 기반 네트워크와 직접 좌표 회귀 모두에 적용 가능함을 보였다. 특히 WFLW 데이터셋을 활용한 300W 실험에서 평균 오차가 3.17에 달하며, 기존 최고 성능 방법들을 크게 앞지르는 성능을 기록하였다. 일반적인 합성곱 네트워크(OCN)와 HRNet 모두에서 ATF는 최대 9.96%의 상대적 성능 향상을 달성하였다. 본 연구의 소스 코드는 공개되어 있으며, https://github.com/starhiking/ATF 에서 확인할 수 있다.