9일 전
불균형 데이터셋을 위한 사후 재교정
Junjiao Tian, Yen-Cheng Liu, Nathan Glaser, Yen-Chang Hsu, Zsolt Kira

초록
신경망은 훈련 레이블 분포가 극도로 불균형할 경우, 또한 테스트 데이터가 훈련 데이터 분포와 다를 경우 성능이 저하될 수 있다. 특히 이러한 불균형이 테스트 레이블 분포의 변화를 유발함에 따라, 본 연구는 최적의 베이즈 분류기 관점에서 이 문제를 재정의하고, KL 발산 기반 최적화를 통해 해결할 수 있는 후처리 사전 확률 재균형 기법을 제안한다. 이 방법은 검증 세트에서 효율적으로 조정 가능한 유연한 후처리 하이퍼파라미터를 제공하며, 분류기의 마진을 효과적으로 조정하여 불균형 문제에 대응할 수 있다. 또한 기존의 가능도 변화(likelihood shift) 처리 방법들과 본 방법을 결합하여, 동일한 베이지안 관점에서 재해석하고, 두 문제를 통합적으로 해결할 수 있음을 보여준다. 제안된 알고리즘은 기반 아키텍처에 무관하게 확률적 분류 문제에 간편하게 적용 가능하다. 다양한 데이터셋(6개)과 아키텍처(5개)에 대한 실험 결과, 대규모 불균형 데이터셋인 iNaturalist(분류 작업) 및 Synthia(세그멘테이션 작업)에서도 최신 기준을 넘는 정확도를 달성하였다. 구현 코드는 다음 링크에서 확인할 수 있다: https://github.com/GT-RIPL/UNO-IC.git