HyperAI超神经

바이트댄스 연구팀이 소개한 Seed-Coder: 6조 토큰으로 학습된 모델 중심 코드 LLM 코드 데이터는 LLM(대형 언어 모델) 학습에서 중요한 역할을 합니다. 이는 단순히 코딩 작업뿐만 아니라 더 넓은 추론 능력에도 혜택을 줍니다. 많은 오픈 소스 모델이 수동 필터링과 전문가가 작성한 규칙에 의존하여 코드 데이터셋을 정리하지만, 이러한 접근 방식은 시간이 많이 걸리고 편향되며 언어 간 확장이 어려운 문제를 안고 있습니다. 독점 모델인 Claude 3.7와 OpenAI o3는 코딩 작업에서 우수한 성능을 보이지만, 데이터 세부 정보를 공개하지 않습니다. 딥시크와 Qwen2.5 같은 오픈 소스 모델도 여전히 인간이 설계한 필터에 크게 의존하고 있어, 이는 진정한 발전이 스케일러블하고 데이터 기반의 방법에서 비롯된다는 "The Bitter Lesson"을 반영합니다. Seed-Coder의 모델 중심 파이프라인은 사전 학습 과정에서 인간의 개입을 최소화하는 것을 목표로 합니다. 바이트댄스 연구팀은 Seed-Coder라는 이름의 80억 파라미터 규모의 오픈 소스 LLM 시리즈를 소개했습니다. 이 시리즈에는 기본 모델, 지시 모델, 그리고 추론 모델이 포함되어 있으며, 특히 코드 데이터 큐레이션에서 인간의 참여를 줄이는 데 초점을 맞추고 있습니다. Seed-Coder는 GitHub와 코드 관련 웹사이트 등 다양한 소스에서 수집한 6조 토큰의 데이터셋으로 학습되었습니다. 초기 필터링 단계에서는 구문 오류나 부적절한 내용이 포함된 파일을 제거한 후, 대형 언어 모델이 사용되어 남은 코드를 평가하고 점수를 매깁니다. 이를 통해 수동으로 작성된 규칙 없이도 고품질 데이터를 보장합니다. 사전 학습은 두 단계로 이루어집니다. 첫 번째 단계에서는 핵심 코드와 웹 데이터를 사용하여 학습하며, 두 번째 단계에서는 전체 저장소와 긴 문맥 작업 같은 복잡한 구조를 활용하여 모델의 코딩 능력을 향상시킵니다. 사후 학습 단계에서는 지시 모델과 추론 모델을 각각 개선합니다. 먼저, 지시 모델은 다양한 종류의 합성 지시 데이터를 통해 감독 학습으로 미세 조정됩니다. 이 데이터는 LLM에 의해 생성되고 필터링되어, 모델이 인간의 프롬프트를 더 잘 이해하고 따르도록 도와줍니다. 그 다음, 직접 선호도 최적화(DPO)를 통해 모델의 응답이 인간의 선호도에 더욱 맞춰지도록 성능을 강화합니다. 복잡한 추론 작업을 위해 추론 모델은 긴 사고 과정(LongCoT) 강화 학습을 통해 다단계 코딩 도전 과제를 처리할 수 있는 능력을 키웁니다. 이러한 단계를 거치면서 Seed-Coder는 다양한 코드 생성 및 추론 작업에서 성능을 크게 향상시켰습니다. 평가 결과, Seed-Coder의 세 가지 모델(Base, Instruct, Reasoning)은 다양한 코딩 작업에서 뛰어난 성능을 보였습니다. Base 모델은 HumanEval과 MultiPL-E 같은 벤치마크에서 유사한 크기의 다른 오픈 소스 모델들을 능가하며, 코드 생성 작업에서 강한 점수를 기록합니다. Instruct 모델은 CodeEditorBench와 FullStack 같은 평가에서 코드 편집과 지시사항 준수를 요구하는 작업에서 특히 뛰어납니다. Reasoning 모델은 LiveCodeBench와 Codeforces 같은 어려운 벤치마크에서 다단계 문제 해결 능력이 뛰어나며, 몇 배 더 큰 모델들보다도 더 우수한 성능을 보입니다. 결론적으로, Seed-Coder는 특히 코딩 작업을 위한 효율적이고 고성능의 오픈 소스 언어 모델 가족입니다. 이 모델들은 인간이 아닌 LLM을 주로 활용하여 훈련 데이터를 필터링하고 큐레이션함으로써, 사전 학습 과정에서 인간의 노력이 크게 줄어들었습니다. 6조 토큰으로 학습되었음에도 불구하고, Seed-Coder는 코드 생성, 완성, 편집, 추론 등 다양한 작업에서 뛰어난 성능을 보였습니다. 그러나 일반적인 언어 이해 능력은 광범위한 웹 데이터와 수학적 내용이 부족한 탓에 아직 한계가 있습니다. 향후 업데이트에서는 다양한 모델 크기에 걸쳐 성능을 개선하고 모델 가족을 확장하는 것이 목표입니다. 업계 인사들은 Seed-Coder의 접근 방식이 코딩 LLM의 발전에 중요한 진전이라고 평가합니다. 이 모델은 대규모 데이터셋을 효과적으로 관리하면서 성능을 최적화한 사례로, 향후 연구와 개발에 큰 영감을 줄 것으로 기대됩니다. 바이트댄스는 이 연구를 통해 오픈 소스 커뮤니티에 기여하고자 하며, 향후 더 많은 발전이 있을 것으로 전망됩니다. 바이트댄스는 AI 연구 분야에서 선구적인 역할을 하고 있으며, Seed-Coder는 그들의 혁신적 접근 방식을 보여주는 대표적인 사례입니다.

바이트댄스, 6조 토큰으로 학습된 오픈소스 코드 AI 모델 Seed-Coder 발표

Related Links