Command Palette
Search for a command to run...
이성 능력에 대한 음성 평가: 모달리티 유도 성과 격차 진단
이성 능력에 대한 음성 평가: 모달리티 유도 성과 격차 진단
Yueqian Lin Zhengmian Hu Qinsi Wang Yudong Liu Hengfan Zhang Jayakumar Subramanian Nikos Vlassis Hai Helen Li Yiran Chen
초록
우리는 실시간 대화 환경에서 음성 상호작용 시스템의 추론 능력을 평가할 수 있는 벤치마크인 '음성 추론 능력 평가(Voice Evaluation of Reasoning Ability, VERA)'를 제안한다. VERA는 기존 텍스트 기반 벤치마크에서 유도된 2,931개의 음성 기반 에피소드로 구성되며, 수학(Math), 웹(Web), 과학(Science), 장문맥(Long-Context), 사실(Factual) 총 다섯 가지 트랙으로 분류된다. 각 항목은 추론의 난이도를 유지하면서 음성 상호작용에 적합하게 조정되었다. VERA는 모델 패밀리 내에서 텍스트와 음성 간의 직접적인 비교를 가능하게 하며, 아키텍처적 선택이 신뢰성에 미치는 영향을 분석하는 데도 기여한다. 우리는 12개의 최신 음성 시스템과 강력한 텍스트 기반 벤치마크를 함께 평가한 결과, 일관되게 큰 모달 간 격차를 관찰했다. 경쟁용 수학 문제에서 최고 수준의 텍스트 모델은 74.8%의 정확도를 기록한 반면, 음성 기반 모델은 단 6.1%에 그쳤다. 다섯 트랙에 걸쳐 매크로 평균을 계산한 결과, 최고의 텍스트 모델은 54.0%의 정확도를 달성한 반면, 음성 모델은 11.3%에 불과했다. 지연 시간-정확도 분석을 통해, 빠른 음성 시스템은 약 10%의 정확도에 도달한 후 성능 향상이 정체되는 저지연 플라토(plateau)에 머무는 것을 확인했으며, 텍스트 수준의 성능을 달성하려면 실시간 상호작용을 희생해야 함을 알 수 있었다. 진단 실험 결과, 일반적으로 사용되는 완화 전략은 충분하지 않음을 보여주었다. '사고 시간'을 늘려도 성능 향상은 미미했으며, 추론과 서사의 단계를 분리한 별도의 캐스케이드 구조는 정확도를 개선하긴 했지만 여전히 텍스트 모델에 크게 뒤처지며, 고정된 기반/일관성 오류를 유발하는 특징을 보였다. 실패 분석을 통해, 네이티브 스트리밍, 엔드투엔드, 캐스케이드 구조 등 서로 다른 설계 방식 간에 고유한 오류 패턴이 존재함을 확인할 수 있었다. VERA는 추론과 발화를 분리하는 아키텍처에 대해 재현 가능한 테스트베드와 집중적인 진단 도구를 제공하며, 자연스럽고 신뢰할 수 있는 실시간 음성 어시스턴트 개발을 위한 진전을 체계적으로 측정할 수 있는 근거 있는 방법을 제시한다.