294,000달러의 훈련 비용을 들여 만든 DeepSeek-R1은 Nature의 표지에 실렸으며, 권위 있는 저널에서 동료 평가를 통과한 최초의 주류 대규모 모델이 되었고 긍정적인 평가를 받았습니다.

特色图像

9월 17일, DeepSeek-R1 관련 연구 결과가 네이처(Nature) 표지에 실렸고, 이 소식은 전 세계 학계에 뜨거운 논쟁을 불러일으켰습니다. 실제로 관련 연구 결과는 올해 1월 arXiv에 사전 출판 형태로 이미 게재된 바 있습니다.하지만 이 논문을 Nature에 게재한 것은 권위 있는 저널에서 심사를 받았다는 점에서 의미가 있습니다.즉, 외부 전문가는 일방적인 정보만 받는 것이 아니라 독립적인 제3자(편집자)의 감독 및 관리 하에 협업 과정을 거쳐 저자 팀에 질문을 하고 추가 정보를 요청할 수 있는데, 이는 업계 최초입니다.

더 중요한 것은, 1월에 발표된 사전 인쇄 논문이 DeepSeek-R1의 연구 방법과 일련의 평가 벤치마크에서의 성능을 개략적으로 설명한 것과 달리, 이번 정식 발표 논문은 모델의 학습 비용을 더욱 자세히 공개했다는 점입니다. Nature News 보도에 따르면,DeepSeek-R1의 훈련 비용은 294,000달러에 불과합니다.DeepSeek이 R1 모델의 기반이 되는 LLM에 약 600만 달러를 투자했지만, 총 비용은 업계에서 일반적으로 헤드 모델 훈련에 필요하다고 여겨지는 수천만 달러에 비해 여전히 훨씬 낮습니다.

* 사전 인쇄 주소:

https://hyper.ai/cn/papers/2504.07128

DeepSeek-R1 훈련 비용

DeepSeek은 DeepSeek-R1-Zero 학습에 648개의 H800 GPU가 사용되었으며, 약 198시간이 소요되었다고 밝혔습니다. 또한, DeepSeek-R1 학습에도 648개의 H800 GPU가 사용되었으며, 약 4일(80시간)이 소요되었습니다. SFT 데이터셋 구축에도 약 5,000 GPU 시간이 소요되었습니다. 구체적인 비용은 위 그림에 나와 있습니다.

대규모 강화 학습으로 추론 능력 향상

대규모 모델 추론 능력의 중요성은 자명하며 업계의 핵심 연구 방향이 되었습니다. 그러나 사전 학습 단계에서 추론 능력을 확보하려면 막대한 컴퓨팅 리소스가 필요한 경우가 많습니다. 이와 관련하여, 일부 연구에서는 CoT(Chain-of-Thought) 프롬프팅을 통해 LLM 역량을 효과적으로 향상시키거나, 학습 후 단계에서 고품질의 다단계 추론 궤적을 학습함으로써 성능을 더욱 향상시킬 수 있음을 보여주었습니다. 이러한 방법들은 효과적이지만, 여전히 명확한 한계점을 가지고 있습니다.예를 들어, 수동 주석에 의존하는 추론 과정은 확장성을 떨어뜨리고 인지적 편향을 초래합니다.또한, 이 모델은 인간의 사고방식을 모방하는 데 국한되어 있기 때문에 본질적으로 인간이 제공한 사례에 따라 성능이 제한되며, 인간의 사고 패턴을 넘어서는 더 나은 추론 경로를 탐색할 수 없습니다.

이를 해결하기 위해 DeepSeek-V3 Base8 기반 DeepSeek은 그룹 상대 정책 최적화(GRPO)를 강화학습 프레임워크로 채택하고 강화학습 전 기존의 지도 학습 미세 조정(SFT) 단계를 생략했습니다. 이러한 설계 방식은 팀의 다음과 같은 가정에 기반합니다.인위적으로 정의된 추론 모드는 모델 탐색을 제한할 수 있는 반면, 제한 없는 RL 훈련은 LLM에서 새로운 추론 기능의 출현을 촉진할 수 있습니다.

이를 바탕으로 연구팀은 다양하고 복잡한 추론 행동을 보이는 DeepSeek-R1-Zero를 개발했습니다. 추론 문제를 해결하기 위해 이 모델은 검증, 반성, 그리고 각 답에 대한 다양한 해법 탐색을 통합하여 더 긴 답을 생성하는 경향이 있습니다. 연구팀은 모델에 추론 방법을 명시적으로 가르치지는 않았지만,하지만 강화학습을 통해 더 나은 추론 전략을 성공적으로 학습했습니다.연구팀은 근접 정책 최적화(PPO)의 학습 과정을 단순화하고 리소스 소모를 줄이기 위해 원래 제안된 알고리즘인 그룹 상대 정책 최적화(GRPO)를 사용했습니다. GRPO는 정책 모델과 동일한 크기의 평가 모델을 필요로 하지 않고, 그룹 점수로부터 기준선을 직접 추정합니다.

또한, 팀은 정확도를 계산하고 보상을 구성하기 위해 규칙 기반 보상 시스템을 도입했습니다. GRPO와 보상 설계를 기반으로, 팀은 DeepSeek-R1-Zero가 먼저 추론 과정을 생성하고 최종 답을 도출하도록 하는 템플릿을 설계했습니다. 훈련 과정에서는 프롬프트 대신 특정 추론 질문이 사용되었습니다.


인간형 어조를 사용하여 재고하는 법을 배우세요

구체적으로, 모델은 사용자의 질문을 받은 후 먼저 "생각" 레이블에 추론 과정을 출력한 다음 "답변" 레이블에 최종 답변을 제공하여 강화 학습에서 효과적인 추론 경로를 자율적으로 탐색할 수 있습니다.연구팀은 실험에서 DeepSeek-R1-Zero가 제공한 답변을 평가하기 위해 규칙 기반 보상 시스템을 사용하여 학습 과정의 안정성과 확장성을 보장했습니다.

평가 결과에 따르면 DeepSeek-R1-Zero의 AIME 2024 수학 경시대회 합격 점수는 최초 15.6%에서 77.9%로 크게 향상되었습니다. 자체 일관성 있는 디코딩 전략을 채택하면 정확도는 86.7%로 더욱 향상되어 인간 플레이어의 평균 수준을 넘어섭니다.

이 모델은 수학적 과제 외에도 프로그래밍 경연 대회와 대학원 수준의 생물학, 물리학, 화학 문제에서도 좋은 성과를 보였으며, 대규모 언어 모델의 추론 능력을 개선하는 데 있어 강화 학습의 효과가 완전히 검증되었습니다.


DeepSeek-R1-Zero의 AIME 정확도를 평균 인간 성능(녹색 기준선)과 훈련 중 비교

더욱이, 강화 학습 과정에서 DeepSeek-R1-Zero는 학습을 통해 점진적으로 더 강력한 추론 능력을 보였을 뿐만 아니라, 명확한 자기 진화적 특성도 보여주었습니다. 실험 데이터는 모델이 내재적 적응에 의해 구동될 때, 학습 중 평균 추론 길이가 지속적으로 증가하고 추론 경로가 지속적으로 수정됨을 보여주었습니다. 추론 과정 중에 기존 추론 단계를 사전에 중단, 검토 및 수정할 수 있었기 때문에, 성찰적 추론과 체계적인 대안 탐색이 가능했습니다.

강화 학습 중 훈련 세트에 대한 DeepSeek-R1-Zero의 평균 응답 길이

또한, 연구팀은 DeepSeek-R1-Zero의 가독성 저하 및 언어 혼용과 같은 문제를 해결하기 위해 DeepSeek-R1을 개발했습니다. DeepSeek-R1의 워크플로는 다음과 같습니다. * DeepSeek-V3를 기반으로 대화형, 인간 사고와 일치하는 콜드 스타트 데이터를 수집하여 DeepSeek-R1 Dev1에 입력합니다. * DeepSeek-R1 Dev1은 데이터를 기반으로 강화 학습 및 샘플링을 수행하고, DeepSeek-R1 Dev2는 추론 및 비추론 데이터 세트를 SFT 프로세스에 통합합니다. * DeepSeek-R1 Dev3은 모델의 유용성과 무해성을 높이기 위해 두 번째 강화 학습 단계를 진행하고, 최종적으로 DeepSeek-R1에 대한 답을 출력합니다.


DeepSeek-R1의 다단계 파이프라인

실험 결과에 따르면, DeepSeek-R1-Zero 및 DeepSeek-R1 Dev1과 비교했을 때 DeepSeek-R1은 각 개발 단계에서 명령어 실행 성능이 크게 향상되었으며 IF-Eval 및 Arena-Hard 벤치마크에서 더 높은 점수를 받았습니다.

DeepSeek-R1 각 단계의 실험 결과

권위 있는 저널에서 동료 평가를 통과한 최초의 대규모 모델

동료 평가를 거친 최초의 LLM 모델인 DeepSeek-R1 연구 논문은 네이처(Nature) 표지를 장식했습니다. 네이처는 "Bring Us Your LLms: Why Peer Review Is Good for AI Models"라는 기사에서 동료 평가가 AI 업계의 마케팅 과대광고에 대한 효과적인 대응책이라고 지적했습니다. 거의 모든 주류 대규모 AI 모델은 아직 독립적인 동료 평가를 거치지 않았는데, "DeepSeek이 마침내 그 공백을 메웠습니다."

이와 관련하여, 애리조나 대학교 연구원이자 AAAI 전 회장인 수바라오 칸밤파티는 동료 평가에 참여했으며, 이는 긍정적인 추세라고 생각한다고 밝혔습니다. 그는 더 많은 최첨단 모델 개발자들이 그들의 발자취를 따라 AI 모델 동료 평가의 기술적 세부 사항을 공유하기를 기대했습니다.

미국 기술 전문 매체 Wind Info는 1월에 공개된 초기 버전과 비교했을 때, 해당 논문은 모델 학습 과정에 대한 더욱 자세한 정보를 제공하고 초기 증류 문제를 직접적으로 해결했다고 보도했습니다. DeepSeek-R1은 향후 더욱 투명하고 표준화된 AI 연구 관행을 위한 모델을 제시한다고 할 수 있습니다.

참고문헌:

1. https://www.nature.com/articles/d41586-025-03015-6

2. https://www.nature.com/articles/d41586-025-02979-9

3. https://www.nature.com/articles/s41586-025-09422