2달 전
밀도에서 전문가 혼합으로의 효율적인 매개변수 스파스성 설계 일반 작업에 대한 지시 조정
Haoyuan Wu; Haisheng Zheng; Zhuolun He; Bei Yu

초록
대형 언어 모델(LLM)들은 일반 자연어 처리(NLP) 작업에서 상당한 능숙함을 보여주었습니다. 명령 조정은 성공적인 패러다임으로, LLM의 자연어 지시사항 따르는 능력과 일반 작업에 대한 강건한 일반화를 향상시키는데 기여합니다. 그러나 이러한 모델들은 제한된 모델 용량으로 인해 여러 작업에서 성능 한계를 자주 겪습니다. 명령 조정 단계에서 이 용량을 확장하는 것은 큰 도전을 안고 있습니다. 이 문제를 해결하기 위해, 우리는 매개변수 효율적인 희소성 구축(PESC) 방법을 소개합니다. PESC는 전문가 혼합(MoE) 아키텍처를 사용하여 밀도 높은 모델들을 희소 모델로 변환합니다. PESC는 희소 모델의 MoE 계층에 어댑터를 통합하여, 이 계층 내의 개별 가중치를 변경하지 않으면서도 전문가들을 구분할 수 있게 합니다. 이 방법은 함수 공간에서 원래의 희소 재사용과 비교하여 근사의 질을 보장하면서 최소한의 매개변수 증가로 모델 용량 확장을 촉진하며, 계산 비용과 GPU 메모리 요구 사항을 크게 줄입니다. 우리의 경험적 평가는 PESC 방법의 효과성을 입증합니다. 명령 조정 과정에서 PESC를 사용하여, 우리의 최고 희소 모델은 다른 희소 및 밀도 높은 모델들보다 우수한 성능을 보였으며 GPT-3.5와 비교하여 더욱 뛰어난 일반화 능력을 나타냈습니다. 우리의 코드는 https://github.com/wuhy68/Parameter-Efficient-MoE 에서 확인할 수 있습니다.