HyperAI초신경
Back to Headlines

UCLA 연구팀, 강화학습으로 개선된 확산 기반 AI 언어 모델 d1 발표

2달 전

ifornia大学洛杉矶分校의 인공지능 연구팀이 메타 AI와 공동으로 새로운 확산 기반 언어 모델 d1을 개발했습니다. 이 연구팀은 해당 프레임워크의 개발 및 특징에 대해 논문을 작성하여 arXiv 사전 간행 서버에 게재했습니다. 최근 몇 년간 대형 언어 모델(LLM)의 사용이 급증하면서 전 세계 수백만 명의 사람들이 다양한 애플리케이션에서 AI 앱을 활용하고 있습니다. 이로 인해 AI 서비스를 제공하는 데이터 센터가 많은 전력을 필요로 하는 상황이 발생했고, 이를 해결하기 위한 연구가 활발히 진행되고 있습니다. 이러한 연구 중 하나가 확산 기반 대형 언어 모델(dLLM)입니다. dLLM은 일반적인 자기회귀 접근법 대신 확산 과정을 통해 답변을 도출합니다. 초기에는 이미지를 생성하는 데 사용되었는데, 이미지에 과도한 노이즈를 추가하고 이를 복원하는 과정을 학습시켜 원래 이미지를 생성하도록 했습니다. 텍스트 생성을 위해서는 문자나 단어를 토큰으로 변환하여 픽셀의 아날로그로 사용합니다. 이 결과, 모델은 마스크를 노이즈의 아날로그로 사용하여 토큰을 서서히 지우고, 결국에는 마스크 특성만 남게 되면 이를 복원하여 토큰만 남도록 학습됩니다. 이 접근 방식의 장점은 LLM보다 훨씬 적은 컴퓨팅 자원을 필요로 한다는 것입니다. 그러나 dLLM은 추론 능력이 열등하다는 문제점이 있었는데, 이 부분을 개선하기 위해 캘리포니아의 연구팀이 강화 학습을 도입했습니다. 강화 학습은 보상 체계를 통해 모델이 학습하는 방법입니다. d1의 구축은 두 단계로 이루어졌습니다. 첫 번째 단계는 고품질 데이터를 사용하여 학습 데이터셋을 감독된 세부 조정(supervised fine-tuning)하는 것이고, 두 번째 단계는 '확산 기반 고급 정책 최적화(diffu-GRPO)' 알고리즘과 '랜덤 프롬프트 마스킹(random prompt masking)'을 활용한 강화 학습입니다. diffu-GRPO는 고수준 추정을 수행하며, 랜덤 프롬프트 마스킹은 토큰을 무작위로 가리는 기술입니다. d1의 테스트 결과는 이 접근 방식이 효과적임을 입증했습니다. d1-LLaDA 모델은 SFT(감독된 세부 조정) 후에 diffu-GRPO를 거쳐 수학과 논리 추론 과제에서 기존 LLaDA-8BInstruct 모델을 일관되게 능가했습니다. 연구팀은 d1 프레임워크가 다른 기업이나 연구 기관에서 시험해볼 만큼 준비되었다고 제안하며, 이들의 제안을 바탕으로 AI 모델을 개선할 가능성을 열어두었습니다. 업계 전문가들은 d1의 개발이 AI 모델의 컴퓨팅 효율성을 크게 향상시킬 것이라고 평가하고 있습니다. UCLA 연구팀은 인공지능 분야에서 주목할 만한 성과를 거두었으며, 메타 AI와의 협업을 통해 더욱 발전된 결과물을 내놓았습니다. 이 프레임워크는 AI 서비스 제공 비용을 줄이고, 더 많은 사람들에게 접근 가능한 AI 기술을 제공할 수 있는 잠재력을 가지고 있습니다.

Related Links