한 달 전

GRPO를 활용한 음성 인식 언어 모델에서의 음성 이해 향상

Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel

초록

본 논문에서는 개방형 음성 이해 과제, 예를 들어 음성 기반 질의 응답(Spoken Question Answering) 및 자동 음성 번역(Automatic Speech Translation)에 대해, 음성 인지 대규모 언어 모델(Speech-Aware Large Language Models, SALLMs)을 훈련하기 위한 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 기반의 방법을 제안한다. SALLMs는 음성 이해 과제에서 높은 효과성을 입증한 바 있다. GRPO는 최근 대규모 언어 모델(LLMs) 훈련의 효율성 덕분에 주목받고 있으며, 기존 연구에서는 주로 다지선다 형식의 과제에 GRPO를 적용한 사례가 다뤄졌다. 본 연구는 이러한 기반을 바탕으로, 모델의 생성 능력을 보다 잘 반영할 수 있는 개방형 과제에 초점을 맞춘다. 제안하는 방법은 BLEU 점수를 보상 신호로 활용하여 GRPO를 통해 SALLMs를 최적화하는 것이다. 실험적으로 이 방법이 표준적인 SFT(Supervised Fine-Tuning)에 비해 여러 핵심 지표에서 우수함을 입증하였다. 마지막으로, 본 연구는 GRPO에 비정책(Off-policy) 샘플을 통합할 가능성에 대해 탐색하며, 향후 개선 방향과 추가 연구의 가능성을 제시한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

GRPO를 활용한 음성 인식 언어 모델에서의 음성 이해 향상

Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel

초록

AI로 AI 구축

Hyper Newsletters