Command Palette

Search for a command to run...

4달 전

Life가 샘플을 주면: 다국어 LLMs의 추론 확장에 따른 이점

Ammar Khairi Daniel Dsouza Ye Shen Julia Kreutzer Sara Hooker

Life가 샘플을 주면: 다국어 LLMs의 추론 확장에 따른 이점

초록

최근 대형 언어 모델(LLM)의 발전은 모델을 재훈련하지 않고 성능을 향상시키는 추론 시 컴퓨팅 확장에 초점을 맞추고 있습니다. 일반적인 접근 방식은 병렬로 여러 출력을 샘플링하고 이 중 하나를 최종 출력으로 선택하는 것입니다. 그러나 지금까지의 연구는 영어와 수학, 코드 등 몇몇 분야에 집중되어 왔습니다. 반면, 우리는 개방형 작업, 공식적으로 검증 가능한 작업, 그리고 다양한 언어에 걸쳐 일반화되는 기술에 더 큰 관심을 가지고 있습니다. 본 연구에서는 다국어 및 다작업 환경에서 개방형 생성 작업의 추론 시 컴퓨팅을 안정적으로 확장하는 방법을 조사합니다.연구 결과, 온도 변동 기반 샘플링 전략과 선택 전략이 다양한 분야와 언어 환경을 고려하여 적응되어야 함을 보여주었습니다. 우리는 기존의 선택 방법들을 평가한 결과, 영어에서 효과적인 전략들이 다른 언어들로 일반화되지 않는 경우가 많다는 것을 발견했습니다. 우리는 다국어 및 다작업 추론 시나리오에 특별히 적응된 새로운 샘플링 및 선택 전략을 제안하며, 이들이 다양한 언어와 작업에서 눈에 띄는 성능 향상을 가져옴을 보여주었습니다. 특히, 우리의 결합된 샘플링 및 선택 방법은 8B 모델이 m-ArenaHard-v2.0 프롬프트에서 Gemini 등의 독점 모델 대비 평균 +6.8%의 승률 상승을 이끌었습니다. 더 큰 규모에서는 Command-A (111B 모델)가 우리의 방법으로 장착되었을 때, 단일 샘플 디코딩 대비 5개의 샘플로 +9.0%의 승률 상승을 보였으며, 이는 최소한의 비용으로 상당한 증가를 의미합니다. 우리의 결과는 언어와 작업에 따른 추론 시 컴퓨팅 접근법의 필요성을 강조하며, 저대표 언어들의 성능 향상을 민주화하는 것을 목표로 합니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp