Command Palette
Search for a command to run...
Natalie Abreu Nikhil Vyas Sham Kakade Depen Morwani

초록
최근 대규모 언어 모델(LLM)의 사전 학습 속도를 빠르게 하기 위한 노력은 이차 구조를 활용하는 계산 효율적인 근사 기법에 집중해왔다. 이는 대규모 학습 환경에서 핵심적인 질문을 제기한다. 이러한 근사 기법을 사용할 경우 얼마나 많은 성능이 손실되는가? 이 질문을 탐구하기 위해, 최대 150M 파라미터 규모의 트랜스포머 모델에 대해 전체 가우스-뉴턴(GN) 전처리 기법을 적용함으로써 반복 복잡도의 실용적인 상한선을 설정하였다. 실험 결과, 전체 GN 업데이트는 기존 최적화 알고리즘과 비교해 상당한 성능 향상을 보였으며, SOAP 및 Muon과 같은 강력한 벤치마크 대비 학습 반복 횟수를 5.4배 감소시켰다. 또한, 계층 간 정보를 무시하는 정밀한 계층별(GN) 전처리기의 경우, 전체 GN 방법과 거의 동일한 성능을 달성함을 발견하였다. 종합적으로 본 연구 결과는 다음과 같은 시사점을 제시한다. (1) GN 근사 기법은 전처리에 매우 효과적이며, 수렴 속도 측면에서 고차 손실 항목이 필수적이지 않을 수 있음을 시사한다. (2) 계층별 헤시안 구조만으로도 대부분의 잠재적 성능 향상을 달성할 수 있는 충분한 정보를 포함하고 있음을 보여준다. (3) 현재의 근사 기법과 이상화된 계층별 오라클 사이에는 상당한 성능 격차가 존재한다.