9일 전

긴 꼬리 시각 인식을 위한 가우시안 클라우드 로짓 조정

{Yang Lu, Yiu-ming Cheung, Mengke Li}
긴 꼬리 시각 인식을 위한 가우시안 클라우드 로짓 조정
초록

긴 꼬리 데이터(long-tailed data)는 균형 잡힌 데이터에서 높은 성능을 달성한 심층 신경망에 대해서도 여전히 큰 도전 과제로 남아 있다. 우리는 교차 엔트로피 손실을 사용하여 긴 꼬리 데이터를 일반적인 방식으로 학습할 경우, 개수 많은 헤드 클래스(head classes)가 꼬리 클래스(tail classes)의 공간적 분포를 심하게 압박함을 관찰하였다. 이로 인해 꼬리 클래스 샘플의 분류가 어려워지는 문제가 발생한다. 더불어 원래의 교차 엔트로피 손실은 소프트맥스 형태에서 로짓 차이가 증가함에 따라 그 기울기가 빠르게 0에 수렴하는 특성 때문에, 기울기 전파가 단기적으로만 이루어진다. 이러한 현상을 소프트맥스 포화(softmax saturation)라고 한다. 이는 균형 잡힌 데이터 학습에는 불리하지만, 긴 꼬리 데이터에서 샘플의 유효성(validity) 조정에 활용될 수 있으며, 결과적으로 긴 꼬리 문제로 인한 왜곡된 임베딩 공간을 해결하는 데 기여할 수 있다. 이를 위해 본 논문은 서로 다른 클래스 로짓(logit)에 대해 다양한 진폭의 가우시안 노이즈를 적용하여 로짓 조정을 수행하는 가우시안 클라우드 로짓 조정(Gaussian clouded logit adjustment) 기법을 제안한다. 여기서 노이즈의 진폭을 ‘클라우드 크기(cloud size)’로 정의하고, 꼬리 클래스에는 상대적으로 큰 클라우드 크기를 설정한다. 큰 클라우드 크기는 소프트맥스 포화를 완화시켜 꼬리 클래스 샘플의 활성화를 높이며, 임베딩 공간을 확장하는 데 기여한다. 분류기의 편향을 완화하기 위해, 본 논문은 분류기 재학습을 포함한 클래스 기반 효과적 수량 샘플링 전략(class-based effective number sampling strategy)을 제안한다. 다양한 벤치마크 데이터셋에서 수행된 광범위한 실험을 통해 제안된 방법의 우수한 성능이 검증되었다. 소스 코드는 다음 링크에서 확인할 수 있다: https://github.com/Keke921/GCLLoss.