HyperAI초신경
Back to Headlines

애플과 홍콩대 팀, DiffuCoder 제시 및 강화학습 방안 개발

4일 전

애플과 홍콩대학 공동 연구팀이 확산 언어 모델 '디퓨코더(DiffuCoder)'를 제안하고, 첫 번째 '확산 원생' 강화 학습 방안을 발표했습니다. 이 모델은 자연스러운 문장 생성을 위해 단어 단위와 왼쪽에서 오른쪽으로의 선형 방식을 사용합니다. 이러한 메커니즘은 시퀀스 연속성을 보장하면서 비선형적인 코드 생성 작업에 대한 한계를 극복할 수 있습니다. 프로그램 작성 과정은 종종 서로 다른 코드 블록 사이의 전환, 예측 구조의 조합, 후속 보충 의존성 등의 동작을 포함하기 때문에, 자동 회귀 모델의 단일 방향 생성 모드는 직접적으로 모방하기 어려웠습니다. 이를 해결하기 위해 연구팀은 확산 모델의 '자기 회귀성(AR-ness)'이라는 지표를 도입했습니다. 이 지표는 '국부적 연속성'과 '전역 순서성' 두 가지 측면에서 모델의 해독 모드를 분석합니다. 분석 결과, 확산 모델은 완전히 무작위로 동작하지 않는다는 점이 확인되었습니다. 텍스트 데이터의 고유한 순서성이 모델에 영향을 미쳐, 모델은 인접한 단어들의 오른쪽 위치에 더 높은 예측 확신도를 보여주며, 이 현상을 '엔트로피 싱크(Entropy Sink)'라고 명명했습니다. 또한, 이 '자기 회귀성'의 정도는 작업 유형에 따라 변하는 것으로 나타났습니다. 코드 생성 시, 모델의 전체적인 자기 회귀성이 수학 문제 해결 절차보다 낮게 나타나는데, 이는 모델이 작업 특성을 고려하여 그 생성 전략을 조정할 수 있음을 나타냅니다. 연구팀은 샘플링 온도(temperature)가 확산 모델에 중대한 영향을 미치는 것을 발견했습니다. 일반적인 자기 회귀 모델에서는 샘플링 온도를 높이는 것이 단어 선택의 다양성을 증가시키는 역할을 합니다. 하지만 확산 모델에서는 샘플링 온도의 변화가 '어떤 위치에서 생성할 것인지'에 대한 결정에 크게 영향을 미칩니다. 샘플링 온도를 높이면 모델의 생성 순서가 더욱 유연하고 다양해지며, 왼쪽에서 오른쪽으로 엄격히 제한되는 것을 방지할 수 있습니다. 이러한 다양성의 증가는 후속 강화 학습의 최적화 방향을 명확히 하는데 기여합니다. 확산 언어 모델 디퓨코더는 프로그래밍 코드 생성과 같은 복잡한 구조를 가진 작업을 처리하는 데 있어 혁신적인 접근법을 제공합니다. 특히, 자기 회귀성의 조절을 통해 모델의 유연성과 효율성을 향상시킬 수 있으며, 이는 다양한 프로그래밍 언어와 문제 유형에 적용될 수 있는 잠재력을 가지고 있습니다. 업계 전문가들은 이 연구가 확산 모델의 활용 범위를 크게 넓힐 수 있는 중요한 진전이라고 평가합니다. 애플과 홍콩대학의 공동 연구는 확산 모델이 단순한 텍스트 생성을 넘어, 프로그래밍 코드 생성과 강화 학습 분야에서도 유용하게 활용될 수 있다는 것을 입증하였습니다. 이 연구의 성과는 미래 AI 기술 발전에 큰 기여를 할 것으로 기대됩니다.

Related Links