17일 전

OnDev-LCT: 연합 학습을 위한 단말기 내 경량 컨볼루션 트랜스포머

Chu Myaet Thwal, Minh N.H. Nguyen, Ye Lin Tun, Seong Tae Kim, My T. Thai, Choong Seon Hong
OnDev-LCT: 연합 학습을 위한 단말기 내 경량 컨볼루션 트랜스포머
초록

연합 학습(Federated Learning, FL)은 개인 정보 보호를 유지하면서도 여러 엣지 장치 간에 공동으로 머신 러닝 모델을 훈련하는 데 있어 기대되는 접근 방식으로 부상하고 있다. FL의 성공은 참여하는 모델의 효율성과 분산 학습에서 발생하는 독특한 도전 과제를 처리할 수 있는 능력에 달려 있다. 최근 몇몇 비전 트랜스포머(Vision Transformer, ViT)의 변종들은 중앙 집중형 학습에서 현대적인 합성곱 신경망(Convolutional Neural Networks, CNNs)의 대안으로 큰 잠재력을 보여주었지만, 그 거대한 규모와 높은 계산 요구 사항으로 인해 자원이 제한된 엣지 장치에의 배포가 어려워져, FL에서의 광범위한 적용을 어렵게 하고 있다. FL 환경에서 클라이언트 장치는 일반적으로 계산 자원과 통신 대역폭이 제한되어 있으므로, 이러한 장치를 위한 모델은 모델 크기, 계산 효율성, 그리고 FL에서 흔히 나타나는 다양한 비독립적 동일 분포(Non-IID) 데이터 분포에 대한 적응 능력 사이에서 균형을 맞춰야 한다. 이러한 문제를 해결하기 위해, 본 연구에서는 훈련 데이터와 자원이 제한된 엣지 장치에서의 시각 작업을 위한 경량 합성곱 트랜스포머인 OnDev-LCT를 제안한다. 제안하는 모델은 LCT 토크나이저를 통해 이미지 특화의 사전 지식(inductive biases)을 도입하며, 잔차 선형 블록 내에서 효율적인 깊이 분리형 합성곱(depthwise separable convolutions)을 활용하여 국소적 특징을 추출한다. 동시에 LCT 인코더 내에 포함된 다중 헤드 자기 주의 메커니즘(Multi-Head Self-Attention, MHSA)은 이미지의 전역적 표현을 암묵적으로 학습하는 데 기여한다. 표준 이미지 데이터셋을 대상으로 한 광범위한 실험 결과에 따르면, 기존의 경량 시각 모델들과 비교하여 본 모델은 더 적은 파라미터 수와 낮은 계산 부담을 유지하면서도 더 뛰어난 성능을 보였으며, 데이터 이질성과 통신 병목 현상이 존재하는 FL 환경에서 특히 적합함을 입증하였다.

OnDev-LCT: 연합 학습을 위한 단말기 내 경량 컨볼루션 트랜스포머 | 최신 연구 논문 | HyperAI초신경