Orca 2: 작은 언어 모델에 추론 능력을 가르치기

오르카 1은 설명 추적과 같은 풍부한 신호로부터 학습하여 BigBench Hard 및 AGIEval과 같은 벤치마크에서 기존의 지시어 조정 모델을 능가할 수 있습니다. 오르카 2에서는 개선된 학습 신호가 더 작은 언어 모델(LM)의 추론 능력을 어떻게 향상시킬 수 있는지 계속 연구하고 있습니다. 작은 LM에 대한 연구는 종종 더 우수한 모델의 출력을 복제하기 위해 모방 학습에 의존해 왔습니다. 우리는 이러한 모방에 대한 과도한 강조가 작은 모델의 잠재력을 제한할 수 있다고 주장합니다. 우리는 작은 LM이 다양한 작업에 대해 서로 다른 해결 전략을 사용하도록 가르치려고 합니다. 큰 모델이 복잡한 작업에 대해 직접적인 답변을 제공할 수 있지만, 작은 모델은 동일한 용량을 갖추지 못할 수도 있습니다. 오르카 2에서는 단계별, 회상 후 생성, 회상-추론-생성, 직접 답변 등 다양한 추론 기법을 가르칩니다. 더욱 중요한 것은 각 작업에 대해 가장 효과적인 해결 전략을 결정하는 방법을 모델이 배울 수 있도록 돕는 것입니다. 우리는 약 100개의 작업과 36,000여 개의 고유 프롬프트를 포함하는 15개의 다양한 벤치마크 세트를 사용하여 오르카 2를 평가했습니다. 오르카 2는 유사한 크기의 모델보다 크게 앞서며, 제로샷 설정에서 고급 추론 능력을 테스트하는 복잡한 작업에서 크기가 5-10배 큰 모델과 비슷하거나 더 나은 성능을 보입니다. 오르카 2의 가중치를 공개적으로 제공하여(aka.ms/orca-lm) 작은 LM의 개발, 평가 및 정렬에 관한 연구를 지원하고자 합니다.