Command Palette
Search for a command to run...
GRPO를 활용한 음성 인식 언어 모델에서의 음성 이해 향상
GRPO를 활용한 음성 인식 언어 모델에서의 음성 이해 향상
Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel
초록
본 논문에서는 개방형 음성 이해 과제, 예를 들어 음성 기반 질의 응답(Spoken Question Answering) 및 자동 음성 번역(Automatic Speech Translation)에 대해, 음성 인지 대규모 언어 모델(Speech-Aware Large Language Models, SALLMs)을 훈련하기 위한 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 기반의 방법을 제안한다. SALLMs는 음성 이해 과제에서 높은 효과성을 입증한 바 있다. GRPO는 최근 대규모 언어 모델(LLMs) 훈련의 효율성 덕분에 주목받고 있으며, 기존 연구에서는 주로 다지선다 형식의 과제에 GRPO를 적용한 사례가 다뤄졌다. 본 연구는 이러한 기반을 바탕으로, 모델의 생성 능력을 보다 잘 반영할 수 있는 개방형 과제에 초점을 맞춘다. 제안하는 방법은 BLEU 점수를 보상 신호로 활용하여 GRPO를 통해 SALLMs를 최적화하는 것이다. 실험적으로 이 방법이 표준적인 SFT(Supervised Fine-Tuning)에 비해 여러 핵심 지표에서 우수함을 입증하였다. 마지막으로, 본 연구는 GRPO에 비정책(Off-policy) 샘플을 통합할 가능성에 대해 탐색하며, 향후 개선 방향과 추가 연구의 가능성을 제시한다.