모델 붕괴
모델 붕괴는 인공지능 분야, 특히 머신 러닝과 딥 러닝 모델 학습 분야에서 발생하는 문제입니다. 이는 모델이 학습 중에 실제 데이터 분포와 거리가 먼 데이터를 생성하기 시작하면 모델의 성능이 급격히 떨어지고 결국 모델 출력이 무의미해짐을 의미합니다.
모델 붕괴라는 개념은 2024년에 많은 주목을 받았는데, 특히 대규모 언어 모델(LLM)의 훈련 분야에서 두드러졌습니다. 종이"모델 붕괴는 불가피한가? 실제 및 합성 데이터 축적을 통한 재귀의 저주 깨기실험 및 이론 분석을 통해 모델 붕괴 문제를 탐구하고, 데이터를 축적하여 모델 붕괴를 방지하는 전략을 제안했습니다. 이 논문은 "ICML 2024 Workshop on Foundation Models in the Wild"에 게재되었습니다. 이 논문은 모델이 스스로 생성된 데이터로 학습될 때 성능이 점차 저하되어 결국 쓸모없게 된다고 지적합니다. 이러한 현상을 모델 붕괴라고 합니다. 연구진은 실험을 통해 원래 실제 데이터를 각 세대의 합성 데이터로 대체할 때 실제로 모델 붕괴가 발생한다는 것을 확인했습니다. 또한, 원래 실제 데이터와 함께 연속 세대의 합성 데이터를 축적함으로써 모델 붕괴를 방지할 수 있으며, 이러한 결과는 다양한 모델 크기, 아키텍처 및 하이퍼파라미터에서도 유효함을 보였습니다.
참고문헌
【1】모델 붕괴는 불가피한가? 실제 및 합성 데이터 축적을 통한 재귀의 저주 깨기