HyperAI초신경
14시간 전

C3: 복잡한 대화에서의 도전 과제를 탐구하는 구술 대화 모델을 위한 이중어 벤치마크

Chengqian Ma, Wei Tao, Yiwen Guo
C3: 복잡한 대화에서의 도전 과제를 탐구하는 구술 대화 모델을 위한 이중어 벤치마크
초록

최근 들어, 사용자의 음성 질의에 직접 음성 응답을 생성할 수 있는 능력을 갖춘 말하기 대화 모델(Spoken Dialogue Models, SDMs)이 주목받고 있다. 이러한 모델의 인기는 점점 증가하고 있으나, 인간 대화를 이해하고 모방하는 데 있어 실제 효과성을 종합적으로 파악하는 데 초점을 맞춘 연구는 여전히 부족한 실정이다. 특히 텍스트 기반의 대규모 언어 모델(Large Language Models, LLMs)과 비교하면 더욱 두드러지며, LLMs는 광범위한 벤치마킹을 통해 발전해왔다. 인간의 음성 상호작용은 말하기 대화 고유의 특성으로 인해 텍스트보다 본질적으로 더 복잡하다. 예를 들어, 의미적 요인인 다의성(polysemy)이나 음운적 요인인 이의어( heterograph), 동음이의어(heteronyms), 강세 패턴(stress patterns) 등으로 인한 모호성은 중요한 도전 과제가 된다. 또한, 생략, 공명(코레퍼런스), 다턴 대화와 같은 맥락 의존성 요소가 인간 대화의 복잡성을 더욱 증가시킨다. 이러한 문제들을 명확히 하고 SDM의 현재 개발 수준을 파악하기 위해 본 논문에서는 영어와 중국어로 구성된 총 1,079개의 인스턴스를 포함하는 벤치마크 데이터셋을 제안한다. 이 데이터셋은 인간의 판단과 밀접하게 부합하는 LLM 기반 평가 방법과 함께 제공되어, SDM이 이러한 실용적 과제를 해결하는 데 있어 수행하는 성능을 포괄적으로 탐색할 수 있도록 한다.