11일 전

자기진화를 통한 효율적인 언어 모델 사전학습 및 다운스트림 적응 방향: SuperGLUE에 대한 사례 연구

Qihuang Zhong, Liang Ding, Yibing Zhan, Yu Qiao, Yonggang Wen, Li Shen, Juhua Liu, Baosheng Yu, Bo Du, Yixin Chen, Xinbo Gao, Chunyan Miao, Xiaoou Tang, Dacheng Tao
자기진화를 통한 효율적인 언어 모델 사전학습 및 다운스트림 적응 방향: SuperGLUE에 대한 사례 연구
초록

이 기술 보고서는 우리 JDExplore 팀의 Vega v2 모델이 SuperGLUE 리더보드에 제출한 내용을 간략히 설명한다. SuperGLUE는 일반적으로 사용되는 언어 이해 평가 기준인 GLUE보다 더 도전적인 벤치마크로, 질의 응답, 자연어 추론, 단어 의미 해석, 핵심 참조 해결, 추론 등 총 여덟 가지 어려운 언어 이해 과제를 포함하고 있다. [방법] 사전 훈련된 언어 모델(PLM)의 크기를 무작정 증가시키는 대신, 본 연구의 목표는 다음과 같다. 첫째, 일정한 파라미터 예산(예: 6B) 내에서 사전 훈련 데이터로부터 지식을 최대한 효과적으로 추출하는 것이며, 둘째, 이를 하류 작업으로 효과적으로 전이하는 것이다. 목표 1을 달성하기 위해, 정보성 있는 토큰을 효과적으로 마스킹할 수 있도록 지능적으로 예측하는 자기 진화 학습(self-evolution learning) 기법을 제안하며, 보정된 부드러운 레이블을 활용하여 마스킹 언어 모델링(Masked Language Modeling, MLM) 과정을 보조한다. 목표 2를 달성하기 위해, 기반 모델과 관련 하류 작업에서 얻은 지식을 타겟 작업으로 전이하는 프롬프트 전이(prompt transfer) 기법을 활용하여 저자원 환경에서의 성능을 향상시킨다. [결과] 2022년 10월 기준 제출 기록에 따르면, 최적화된 사전 훈련 및 미세 조정 전략을 적용한 6B 규모의 Vega 모델은 8개 과제 중 4개에서 새로운 최고 성능을 기록하였으며, 2022년 10월 8일 기준 SuperGLUE 리더보드 상위에 올라가 평균 점수 91.3을 달성하였다.

자기진화를 통한 효율적인 언어 모델 사전학습 및 다운스트림 적응 방향: SuperGLUE에 대한 사례 연구 | 최신 연구 논문 | HyperAI초신경