Command Palette
Search for a command to run...

초록
인간 상호작용과 정보 교환의 핵심 매체로서 소셜 네트워킹 서비스(SNS)는 대규모 언어 모델(LLM)에 고유한 도전 과제를 제기한다. 이는 이질적인 워크로드, 빠르게 변화하는 규범과 슬랭, 그리고 다국어·다문화적 특성을 지닌 코퍼스로 인한 급격한 분포 변화(Distribution Shift)가 포함된다. 지도 기반 미세조정(SFT)은 모델의 전문성을 높일 수 있지만, 특히 소규모 모델에서는 분포 내 성능 향상과 분포 외에서의 강건성 사이에 '시소 효과'(seesaw)가 발생하는 경향이 있다. 이러한 문제를 해결하기 위해, 우리는 SNS 환경에 최적화된 LLM인 RedOne 2.0을 제안한다. 이 모델은 빠르고 안정적인 적응을 위해 점진적이고 강화학습(RL) 우선 순위를 고려한 후학습 파이프라인을 기반으로 훈련되었다. 본 파이프라인은 세 단계로 구성된다. (1) 정제된 SNS 코퍼스를 기반으로 한 탐색적 학습을 통해 초기 일치성(Alignment)을 확보하고 체계적인 약점을 식별한다. (2) 진단된 격차에 대해 선택적으로 SFT를 적용하면서, 소량의 일반 데이터를 혼합함으로써 기억 상실(Forgetting)을 완화하는 타겟 미세조정을 수행한다. (3) SNS 중심의 신호를 활용해 다시 RL을 적용함으로써 성능 향상을 강화하고, 다양한 작업 간의 트레이드오프를 조화롭게 정립하는 보완 학습을 수행한다. 다양한 작업을 포함하는 세 가지 범주에 걸쳐 평가한 결과, 4B 규모의 모델은 7B 규모의 하위 최적 기준 모델 대비 평균적으로 약 2.41점의 성능 향상을 달성하였다. 또한, RedOne 2.0은 SFT 중심 방법인 RedOne에 비해 필요한 데이터량의 절반 미만으로도 기준 모델 대비 평균 약 8.74점의 성능 향상을 기록하며, 소규모 환경에서도 뛰어난 데이터 효율성과 안정성을 입증하였다. 종합적으로, RedOne 2.0은 SNS 환경에서의 도메인 특화 LLM에 대해 경쟁력 있고 비용 효율적인 기준 모델을 제시하며, 강건성을 희생하지 않고도 성능을 향상시킨다는 점에서 의미 있는 진전을 이뤘다.