17일 전

순차적 엔드투엔드 의도 및 슬롯 레이블 분류 및 위치 결정

Yiran Cao, Nihal Potdar, Anderson R. Avila
순차적 엔드투엔드 의도 및 슬롯 레이블 분류 및 위치 결정
초록

인간-컴퓨터 상호작용(HCI)은 음성 대화 시스템의 지연 응답에 의해 크게 영향을 받는다. 따라서 최근 지연 시간을 줄이기 위해 종단 간(end-to-end, e2e) 음성 언어 이해(speech language understanding, SLU) 솔루션이 제안되고 있다. 이러한 접근 방식은 음성 신호에서 직접 의미 정보를 추출할 수 있게 하여 자동 음성 인식(automatic speech recognition, ASR) 시스템의 전사(transcript)를 필요로 하지 않도록 한다. 본 논문에서는 스트리밍 환경을 대상으로 하여, 음성 신호의 청크(chunk)를 지속적으로 처리하여 의도(intent)와 슬롯(slot) 값을 예측하는 컴팩트한 e2e SLU 아키텍처를 제안한다. 제안된 모델은 3차원 컨볼루션 신경망(3D-CNN)과 단방향 장단기 기억 단위(long short-term memory, LSTM)을 기반으로 한다. 또한, 정렬 불필요(loss) 손실 함수 두 가지—연결주의적 시간 분류(connectionist temporal classification, CTC)와 그 변형된 버전인 연결주의적 시간 위치 추정(connectionist temporal localization, CTL)—의 성능을 비교하였다. CTL은 순차적 음성 이벤트의 분류뿐만 아니라 위치 추정도 수행한다. 제안된 솔루션은 Fluent Speech Command 데이터셋에서 평가되었으며, 결과는 모델이 도착하는 음성 신호를 효과적으로 처리할 수 있음을 보여주며, 단일 레이블 분류에서는 CTC가 98.97%, CTL이 98.78%의 정확도를 달성하였고, 두 레이블 예측에서는 CTC가 95.69%, CTL이 95.28%의 정확도를 기록하였다.