2달 전

음성-텍스트 대화 사전학습: 명시적 크로스모달 정렬을 활용한 구어체 대화 이해

Tianshu Yu; Haoyu Gao; Ting-En Lin; Min Yang; Yuchuan Wu; Wentao Ma; Chao Wang; Fei Huang; Yongbin Li
음성-텍스트 대화 사전학습: 명시적 크로스모달 정렬을 활용한 구어체 대화 이해
초록

최근, 음성-텍스트 사전 학습 방법이 많은 음성 및 자연어 처리 작업에서 뛰어난 성공을 거두었습니다. 그러나 대부분의 이전 사전 학습 모델은 하나 또는 두 개의 특정 작업에 맞춰져 있지만, 다양한 음성-텍스트 작업을 완벽하게 해결하지는 못합니다. 또한, 기존의 음성-텍스트 사전 학습 방법들은 대화 내의 문맥 정보를 탐색하여 발화 표현을 풍부하게 만드는 데 실패하였습니다. 본 논문에서는 Spoken Dialog Understanding에 대한 Speech-text dialog Pre-training for ExpliCiT cRoss-Modal Alignment (SPECTRA)를 제안합니다. SPECTRA는 최초로 제안되는 음성-텍스트 대화 사전 학습 모델입니다. 구체적으로, 음성 모달리티의 시간성을 고려하기 위해 새로운 시간적 위치 예측 작업을 설계하여 음성-텍스트 정렬을 포착하였습니다. 이 사전 학습 작업은 각 텍스트 단어가 해당하는 음성 신호에서 시작되고 종료되는 시점을 예측하는 것을 목표로 합니다. 또한, 말소리 대화의 특성을 학습하기 위해 텍스트 대화 사전 학습에서 반응 선택 작업을 일반화하여 음성-텍스트 대화 사전 학습 시나리오에 적용하였습니다. 네 가지 다른 다운스트림 음성-텍스트 작업에 대한 실험 결과는 SPECTRA가 음성-텍스트 정렬과 다중 턴 대화 문맥을 학습하는 데 있어 우수함을 입증하였습니다.

음성-텍스트 대화 사전학습: 명시적 크로스모달 정렬을 활용한 구어체 대화 이해 | 최신 연구 논문 | HyperAI초신경