2달 전

교과서만으로 충분하다 II: phi-1.5 기술 보고서

Yuanzhi Li; Sébastien Bubeck; Ronen Eldan; Allie Del Giorno; Suriya Gunasekar; Yin Tat Lee

초록

우리는 \textbf{TinyStories} -- 1,000만 개의 매개변수를 가진 영어 생성이 가능한 모델 -- 와 그 후속 연구인 \textbf{phi-1} -- 13억 개의 매개변수를 가진 파이썬 코딩 성능이 최신 수준에 가까운 모델 -- 에서 시작된 작은 트랜스포머 기반 언어 모델의 능력에 대한 조사를 계속하고 있습니다. 후속 연구에서는 전통적인 웹 데이터보다 학습 과정을 향상시키는 방법으로 기존의 대형 언어 모델(Large Language Models, LLMs)을 사용하여 "교과서 수준"의 데이터를 생성하는 방안을 제안했습니다. 우리는 "교과서만 필요하다(Textbooks Are All You Need)" 접근법을 따르며, 이번에는 자연어에서 상식 추론에 집중하여 13억 개의 매개변수를 가진 새로운 모델 \textbf{phi-1.5}를 생성하였습니다. 이 모델은 자연어 작업에서 5배 더 큰 모델들과 비슷한 성능을 보이며, 초등학교 수학과 기본 코딩 등 더 복잡한 추론 작업에서는 대부분의 비최전선 LLMs를 능가합니다. 더욱 일반적으로, \textbf{phi-1.5}는 웹 데이터가 없는 덕분에 환각(hallucinations) 및 독성과 편향된 생성물(toxic and biased generations) 등의 문제점이 개선되고 있으며, 대형 LLMs와 마찬가지로 단계별 사고("think step by step")나 일부 문맥 내 학습(in-context learning) 같은 긍정적인 특성을 보입니다. 우리는 이러한 시급한 주제들에 대한 추가 연구를 촉진하기 위해 \textbf{phi-1.5}의 오픈 소스를 공개합니다.