2달 전
LLM 커뮤니티의 천장 돌파를 위한 토큰 생성의 분류화 처리 방법 연구
Yao-Ching Yu; Chun-Chih Kuo; Ziqi Ye; Yu-Cheng Chang; Yueh-Se Li

초록
여러 모델을 앙상블하는 것은 기존 성능의 한계를 끌어올리는 효과적인 방법으로, 분류 작업에서 여러 분류기의 분류 확률 벡터를 단순히 평균화하여 더 나은 정확도를 달성하는 데 널리 사용됩니다. 그러나 활발한 오픈 소스 대형 언어 모델(LLM) 커뮤니티에서는 앙상블 방법이 드물고, 주로 LLM의 전체 텍스트 출력을 앙상블하는 방식(예: 순위 지정기를 사용하여 최고의 출력을 선택)에 제한되어 있어 토큰 수준의 확률 정보가 활용되지 않는 경우가 많습니다. 본 논문에서는 LLM이 각 토큰을 생성하는 과정을 분류(Classification as Generation, GaC)로 취급하여 앙상블합니다. 이 접근법은 생성 단계마다 확률 정보를 충분히 활용하며, 초기에 잘못된 토큰이 생성되어 눈덩이처럼 오류가 누적되는 것을 더 잘 방지합니다. 실험에서는 여러 벤치마크(시험, 수학 및 추론 등)에서 최신 LLM들을 앙상블하였으며, 우리의 방법이 기존 커뮤니티 성능 한계를 깨는 것을 확인하였습니다. 또한 대부분의 답변 토큰이 간단하고 최종 답변의 정확성에 영향을 미치지 않는다는 점을 관찰하였기 때문에, 주요 토큰만 앙상블하는 실험도 수행하였으며, 그 결과 벤치마크 전반에서 더 나은 성능과 낮은 지연 시간을 보였습니다.