11일 전

시간은 특징이다: 확산 언어 모델에서 시계적 동역학 활용하기

Wen Wang, Bozhen Fang, Chenchen Jing, Yongliang Shen, Yangyi Shen, Qiuyu Wang, Hao Ouyang, Hao Chen, Chunhua Shen
시간은 특징이다: 확산 언어 모델에서 시계적 동역학 활용하기
초록

확산 대규모 언어 모델(dLLMs)은 반복적인 노이즈 제거 과정을 통해 텍스트를 생성하지만, 현재의 디코딩 전략은 최종 출력에만 초점을 맞추며 중간 단계에서 생성된 풍부한 예측 정보를 무시하는 경향이 있다. 본 연구에서는 중요한 현상인 시간적 진동(temporal oscillation)을 규명한다. 이 현상은 올바른 답변이 중간 단계에서 자주 등장하지만, 후속 노이즈 제거 단계에서 다시 덮어쓰여지는 경향을 보인다. 이러한 문제를 해결하기 위해, 시간적 일관성을 활용하는 두 가지 보완적인 방법을 제안한다. 첫째, 훈련이 필요 없는 테스트 시점 디코딩 전략인 시간적 자기 일관성 투표(Temporal Self-Consistency Voting)는 노이즈 제거 단계별 예측을 종합하여 가장 일관성 있는 출력을 선정한다. 둘째, 사후 훈련(post-training) 방법으로 시간적 의미 엔트로피(Temporal Semantic Entropy, TSE)를 활용한 시간적 일관성 강화(Temporal Consistency Reinforcement) 기법을 제안한다. TSE는 중간 예측 간의 의미적 안정성을 측정하는 지표로, 안정적인 생성을 유도하는 보상 신호로 사용된다. 다양한 벤치마크에서의 실험 결과는 본 연구 방법의 효과성을 입증한다. 기존 dLLM 대비 음의 TSE 보상만을 사용했을 때, Countdown 데이터셋에서 평균 24.7%의 놀라운 개선 효과를 관측하였다. 정확도 보상과 병행할 경우, GSM8K에서 2.0%, MATH500에서 4.3%, SVAMP에서 6.6%, Countdown에서 25.3%의 절대적 성능 향상을 달성하였다. 본 연구 결과는 dLLMs 내 시간적 동역학의 잠재적 가치를 재조명하며, 이를 효과적으로 활용할 수 있는 간단하면서도 강력한 도구를 제시한다.

시간은 특징이다: 확산 언어 모델에서 시계적 동역학 활용하기 | 최신 연구 논문 | HyperAI초신경