Command Palette
Search for a command to run...
Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel

초록
본 논문에서는 개방형 음성 이해 과제, 예를 들어 음성 기반 질의 응답(Spoken Question Answering) 및 자동 음성 번역(Automatic Speech Translation)에 대해, 음성 인지 대규모 언어 모델(Speech-Aware Large Language Models, SALLMs)을 훈련하기 위한 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 기반의 방법을 제안한다. SALLMs는 음성 이해 과제에서 높은 효과성을 입증한 바 있다. GRPO는 최근 대규모 언어 모델(LLMs) 훈련의 효율성 덕분에 주목받고 있으며, 기존 연구에서는 주로 다지선다 형식의 과제에 GRPO를 적용한 사례가 다뤄졌다. 본 연구는 이러한 기반을 바탕으로, 모델의 생성 능력을 보다 잘 반영할 수 있는 개방형 과제에 초점을 맞춘다. 제안하는 방법은 BLEU 점수를 보상 신호로 활용하여 GRPO를 통해 SALLMs를 최적화하는 것이다. 실험적으로 이 방법이 표준적인 SFT(Supervised Fine-Tuning)에 비해 여러 핵심 지표에서 우수함을 입증하였다. 마지막으로, 본 연구는 GRPO에 비정책(Off-policy) 샘플을 통합할 가능성에 대해 탐색하며, 향후 개선 방향과 추가 연구의 가능성을 제시한다.