16일 전

이: 01.AI에서 출시한 오픈 기반 모델

01.AI, Alex Young, Bei Chen, Chao Li, Chengen Huang, Ge Zhang, Guanwei Zhang, Guoyin Wang, Heng Li, Jiangcheng Zhu, Jianqun Chen, Jing Chang, Kaidong Yu, Peng Liu, Qiang Liu, Shawn Yue, Senbin Yang, Shiming Yang, Wen Xie, Wenhao Huang, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Pengcheng Nie, Yanpeng Li, Yuchi Xu, Yudong Liu, Yue Wang, Yuxuan Cai, Zhenyu Gu, Zhiyuan Liu, Zonghong Dai

논문 세부 정보 보기

초록

우리는 다차원적 능력을 갖춘 강력한 언어 및 멀티모달 모델 세트인 Yi 모델 패밀리를 소개합니다. Yi 모델 패밀리는 6B 및 34B 파라미터 규모의 사전 훈련된 언어 모델을 기반으로, 대화 모델, 최대 20만 토큰의 긴 컨텍스트 모델, 깊이 확장된 모델, 그리고 비전-언어 모델로 확장되었습니다. 기반 모델은 MMLU를 포함한 다양한 벤치마크에서 뛰어난 성능을 보이며, 미세조정된 대화 모델은 AlpacaEval 및 Chatbot Arena와 같은 주요 평가 플랫폼에서 높은 인간 선호도 점수를 기록했습니다. 우리의 확장 가능한 슈퍼컴퓨팅 인프라와 전통적인 트랜스포머 아키텍처를 기반으로 하여, Yi 모델의 성능은 데이터 엔지니어링 노력에 기반한 높은 데이터 품질에 주로 기인한다고 판단합니다. 사전 훈련을 위해, 계단식 데이터 중복 제거 및 품질 필터링 파이프라인을 활용하여 영어 및 중국어 코퍼스 총 3.1조 토큰을 구축했습니다. 미세조정을 위해, 기계 학습 엔지니어들이 직접 검증한 1만 건 미만의 소규모 지시 데이터셋을 다수의 반복 과정을 통해 정제하였습니다. 비전-언어 모델의 경우, 대화용 언어 모델과 비전 트랜스포머 인코더를 결합하여 시각 정보를 언어 모델의 의미 공간과 정렬하도록 훈련하였습니다. 또한 경량 지속적 사전 훈련을 통해 컨텍스트 길이를 20만 토큰까지 확장하였으며, '바늘 찾기'와 같은 어려운 정보 검색 테스크에서도 뛰어난 성능을 입증했습니다. 지속적 사전 훈련을 통해 사전 훈련 체크포인트의 깊이를 늘림으로써 모델 성능이 추가로 향상됨을 보였습니다. 현재의 성과를 바탕으로, 철저히 최적화된 데이터를 활용해 모델 파라미터를 더욱 확장해 나간다면, 더 강력한 최첨단 모델의 개발이 가능할 것이라 확신합니다.