
초록
다수의 워커를 사용하여 머신러닝 모델을 훈련할 때, 각 워커가 자체적인 데이터 소스로부터 데이터를 수집하는 상황에서, 서로 다른 워커로부터 수집된 데이터가 독특하고 차별화되어 있다면 유리하다. 그러나 모순적이게도, 최근의 분산 병렬 확률적 경사하강법(D-PSGD)에 대한 분석은 서로 다른 워커에 호스팅된 데이터가 너무 다르지 않다는 가정에 의존하고 있다. 본 논문에서는 다음과 같은 질문을 제기한다: 서로 다른 워커 간 데이터 분산에 덜 민감한 분산 병렬 확률적 경사하강법을 설계할 수 있는가? 본 논문에서는 대규모 데이터 분산(일반적으로 “분산된” 데이터라고 표현됨)을 고려하여 설계된 새로운 분산 병렬 확률적 경사하강법인 D²를 제안한다. D²의 핵심은 D-PSGD의 분산 감소 확장이다. 이 기법은 수렴 속도를 기존의 $O\left({\sigma \over \sqrt{nT}} + {(n\zeta^2)^{1/3} \over T^{2/3}}\right)$에서 $O\left({\sigma \over \sqrt{nT}}\right)$로 개선한다. 여기서 $\zeta^2$는 서로 다른 워커에 있는 데이터 간의 분산을 나타낸다. 결과적으로 D²는 워커 간 데이터 분산에 대해 강건하다. 이미지 분류 작업을 대상으로 한 실험을 통해 D²를 평가한 결과, 각 워커가 제한된 레이블 집합의 데이터만 접근할 수 있는 환경에서도 D²가 D-PSGD보다 유의미하게 우수한 성능을 보였다.