10일 전

불균형 학습에서 신경학적 붕괴 유도: 깊은 신경망의 끝부분에 학습 가능한 분류기가 정말 필요한가?

Yibo Yang, Shixiang Chen, Xiangtai Li, Liang Xie, Zhouchen Lin, Dacheng Tao
불균형 학습에서 신경학적 붕괴 유도: 깊은 신경망의 끝부분에 학습 가능한 분류기가 정말 필요한가?
초록

분류를 위한 현대적인 심층 신경망은 보통 특징 표현을 위한 백본과 각 클래스의 로짓을 출력하는 선형 분류기를 함께 학습한다. 최근 연구에 따르면, 균형 잡힌 데이터셋에서 훈련의 최종 단계에 이르러 특징의 클래스 내 평균과 분류기 벡터가 단순형 등각 타이트 프레임(Simplex Equiangular Tight Frame, ETF)의 꼭짓점으로 수렴하는 현상인 '신경 붕괴(Neural Collapse)'가 관찰된다. ETF의 기하학적 구조는 분류기 내 모든 클래스 간의 쌍별 각도를 최대한 분리하므로, 최적의 기하학적 구조를 이미 알고 있다면 왜 분류기를 학습하는 데 노력해야 하는지 자연스럽게 의문이 제기된다. 본 논문에서는 분류기를 무작위로 초기화한 ETF로 고정하고, 훈련 중에 이를 유지하면서 분류를 위한 신경망을 학습하는 가능성에 대해 연구한다. 층 분리 모델(layer-peeled model) 기반의 분석 결과, 고정된 ETF 분류기를 사용할 경우, 클래스 간 불균형이 있는 데이터셋에서도 특징 학습이 자연스럽게 신경 붕괴 상태로 수렴함을 보였다. 또한 이 경우 교차 엔트로피(Cross Entropy, CE) 손실이 필수적이지 않으며, 동일한 전역 최적성을 가지면서 수렴 성능이 우수한 단순한 제곱 손실(Squared Loss)로 대체할 수 있음을 입증하였다. 실험 결과, 제안한 방법은 여러 불균형 데이터셋에서 빠른 수렴 속도와 함께 상당한 성능 향상을 달성함을 보였다.

불균형 학습에서 신경학적 붕괴 유도: 깊은 신경망의 끝부분에 학습 가능한 분류기가 정말 필요한가? | 최신 연구 논문 | HyperAI초신경