Command Palette
Search for a command to run...
Linhao Zhang Jian Zhang Bokai Lei Chuhan Wu Aiwei Liu Wei Jia Xiao Zhou

초록
최근 다중모달 대규모 언어모델(Large Language Models, LLMs)인 GPT-4o와 같은 모델들은 직접적인 음성 상호작용 능력을 강력하게 보여주고 있다. 그러나 실세계 응용에서 오디오 기반 LLM의 사용자 경험을 최적화하는 데는 종합적이고 전문적인 엔드투엔드 음성 LLM 평가 기준의 부재가 큰 장애물로 작용하고 있다. 기존 평가 방법들은 텍스트 기반 기준을 그대로 활용하는 경우가 많아, 음성의 고유한 특성과 도전 과제인 억양, 동음이의어, 말이 꼬임, 사용자 기대의 차이 등을 간과하는 경향이 있다. 본 연구에서는 실제 음성 대화 상황에서 엔드투엔드 음성 LLM을 체계적으로 평가할 수 있도록 설계된 최초의 종합적 평가 기준을 제안한다. 우리는 실제 사용 상황과 관련된 음성 대화 데이터를 체계적으로 수집하고, 화자 특성과 음향 조건의 다양성을 도입하며, 음성 특유의 현상들로 데이터셋을 보완하였다. 또한, 쿼리 인식 평가 방법을 설계하여 사용자 쿼리에 맞춘 평가 체크리스트와 프롬프트를 활용해 자동 평가의 정확도를 높였다. 다양한 주류 음성 모델에 대해 종합적인 테스트와 세부적인 분석을 수행한 결과, 모델의 성능이 다양한 음성 상황에서 크게 차이가 나는 것으로 나타났다. 특히 쿼리 인식 평가 방법을 도입함으로써 음성 특화 상황에서 더욱 세밀한 평가가 가능해졌다. 본 평가 기준은 음성 모델 개발 및 평가에 있어 귀중한 통찰을 제공할 수 있을 것이다.