Command Palette

Search for a command to run...

한 달 전

GRPO를 활용한 음성 인식 언어 모델에서의 음성 이해 향상

Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel

GRPO를 활용한 음성 인식 언어 모델에서의 음성 이해 향상

초록

본 논문에서는 개방형 음성 이해 과제, 예를 들어 음성 기반 질의 응답(Spoken Question Answering) 및 자동 음성 번역(Automatic Speech Translation)에 대해, 음성 인지 대규모 언어 모델(Speech-Aware Large Language Models, SALLMs)을 훈련하기 위한 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 기반의 방법을 제안한다. SALLMs는 음성 이해 과제에서 높은 효과성을 입증한 바 있다. GRPO는 최근 대규모 언어 모델(LLMs) 훈련의 효율성 덕분에 주목받고 있으며, 기존 연구에서는 주로 다지선다 형식의 과제에 GRPO를 적용한 사례가 다뤄졌다. 본 연구는 이러한 기반을 바탕으로, 모델의 생성 능력을 보다 잘 반영할 수 있는 개방형 과제에 초점을 맞춘다. 제안하는 방법은 BLEU 점수를 보상 신호로 활용하여 GRPO를 통해 SALLMs를 최적화하는 것이다. 실험적으로 이 방법이 표준적인 SFT(Supervised Fine-Tuning)에 비해 여러 핵심 지표에서 우수함을 입증하였다. 마지막으로, 본 연구는 GRPO에 비정책(Off-policy) 샘플을 통합할 가능성에 대해 탐색하며, 향후 개선 방향과 추가 연구의 가능성을 제시한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
GRPO를 활용한 음성 인식 언어 모델에서의 음성 이해 향상 | 연구 논문 | HyperAI초신경