17일 전

엔드투엔드 음성 대화형 질문 응답: 작업, 데이터셋 및 모델

Chenyu You, Nuo Chen, Fenglin Liu, Shen Ge, Xian Wu, Yuexian Zou
엔드투엔드 음성 대화형 질문 응답: 작업, 데이터셋 및 모델
초록

구두 질문 응답(task)에서 시스템은 관련 음성 전사본 내 연속적인 텍스트 구간에서 질문에 답하도록 설계된다. 그러나 인간이 지식을 탐색하거나 검증하는 가장 자연스러운 방식은 인간 간의 대화이다. 따라서 우리는 음성 문서를 기반으로 복잡한 대화 흐름을 모델링할 수 있도록 하는 새로운 구두 대화형 질문 응답(task, SCQA)을 제안한다. 본 작업의 주된 목적은 음성 기록을 기반으로 대화형 질문에 대응할 수 있는 시스템을 구축하고, 정보 수집 과정에서 다양한 모달리티로부터 더 많은 단서를 제공할 수 있는 가능성 탐색이다. 이를 위해 고도로 노이지된 데이터를 포함하는 자동 생성 음성 전사본을 직접 채택하는 대신, 우리는 음성과 언어 모달리티에 대한 세밀한 표현을 달성하기 위해 교차 모달 정보를 효과적으로 통합하는 새로운 통합적 데이터 정제 기법인 DDNet을 제안한다. 또한, 오디오와 텍스트 간의 보다 우수한 정렬을 유도함으로써 지식 전이 과정을 용이하게 하는 간단하고 새로운 메커니즘인 이중 주의(Dual Attention)를 제안한다. 대화 형식의 상호작용에서 SCQA 시스템의 능력을 평가하기 위해, 4,000개의 대화에서 유래한 4만 개 이상의 질문-답변 쌍을 포함하는 구두 대화형 질문 응답(Spoken-CoQA) 데이터셋을 구축하였다. 기존 최첨단 기법들의 성능은 본 데이터셋에서 상당히 저하됨을 확인하였으며, 이는 교차 모달 정보 통합의 필요성을 입증한다. 실험 결과는 제안하는 방법이 구두 대화형 질문 응답 작업에서 우수한 성능을 달성함을 보여준다.

엔드투엔드 음성 대화형 질문 응답: 작업, 데이터셋 및 모델 | 최신 연구 논문 | HyperAI초신경