17일 전

주의 집중 편향 확률적 경사 하강법

Qi Qi, Yi Xu, Rong Jin, Wotao Yin, Tianbao Yang
주의 집중 편향 확률적 경사 하강법
초록

본 논문에서는 딥러닝에서의 데이터 불균형 또는 레이블 노이즈 문제를 해결하기 위한 간단하면서도 증명 가능성이 있는 방법(이하 ABSGD)을 제안한다. 본 방법은 모멘텀 SGD에 대한 간단한 수정으로, 미니배치 내 각 샘플에 개별적인 중요도 가중치를 부여한다. 샘플링된 데이터의 개별 수준 가중치는 데이터의 스케일링된 손실 값의 지수와 체계적으로 비례하며, 이 스케일링 인자는 분포로 부터 강건한 최적화(Distributionally Robust Optimization, DRO) 프레임워크 내에서 정규화 파라미터로 해석된다. 스케일링 인자가 양수인지 음수인지에 따라, ABSGD는 각각 정보 정규화된 미니맥스 또는 미니미 DRO 문제의 정류점에 수렴함이 보장된다. 기존의 클래스 수준 가중치 방식과 비교하여, 본 방법은 각 클래스 내 개별 예시들 간의 다양성을 보다 정교하게 포착할 수 있다. 또한 메타학습 기반의 기존 개별 수준 가중치 방법은 미니배치의 확률적 경사하강을 계산하기 위해 세 번의 역전파를 필요로 하는 반면, 본 방법은 표준 딥러닝 방법과 동일하게 각 반복에서 단 한 번의 역전파만으로도 효율적으로 작동한다. ABSGD는 다른 강건한 손실 함수와 추가적인 비용 없이도 유연하게 결합할 수 있다. 다양한 벤치마크 데이터셋을 대상으로 수행한 실험적 연구를 통해 제안된 방법의 효과성을 입증하였다.\footnote{코드는 다음에서 제공됨: \url{https://github.com/qiqi-helloworld/ABSGD/}}