11일 전

Uni-MIS: 다중 시각적 의도-슬롯 상호작용을 통한 통합 다중 의도 음성 언어 이해

{Yuhong Xu, Peijie Huang, Shangjian Yin}
초록

지금까지 다중 의도 음성 언어 이해(SLU)는 단일 발화 내에서 다수의 의도를 인식하고 추출하며 해당 발화에 대한 시퀀스 슬롯 태그를 주석화할 수 있는 능력으로 인해 자연어 처리(NLP) 분야에서 연구의 핫스팟으로 부상해왔다. 기존의 연구들은 주로 토큰 수준의 의도-슬롯 상호작용을 모델링하여 공동 의도 탐지와 슬롯 채우기(task)를 수행해왔으나, 이 과정에서 통합 학습 시 이방성(이질성)을 가진 의도 유도 정보를 충분히 활용하지 못하는 한계가 있었다. 본 연구에서는 다중 의도 SLU를 다중 시점의 의도-슬롯 상호작용으로 모델링하는 새로운 아키텍처를 제안한다. 이 아키텍처는 발화 수준, 청크(chunk) 수준, 토큰 수준의 상호작용을 효과적으로 모델링함으로써 통합형 다중 의도 SLU의 핵심적 성능 저하 요인인 커널 병목 문제를 해결한다. 또한, 특수 인코딩 후 상호작용 정보를 더 잘 포착하기 위해 통합된 다중 의도 SLU를 세 가지 시점의 의도-슬롯 상호작용 병합으로 모델링한 신경망 프레임워크인 Uni-MIS를 제안한다. 청크 수준의 의도 탐지 디코더를 도입하여 다중 의도 정보를 충분히 포착하고, 적응형 의도-슬롯 그래프 네트워크를 활용하여 세부적인 의도 정보를 추출하여 최종 슬롯 채우기 과정을 안내한다. 제안한 모델은 다중 의도 SLU 분야에서 널리 사용되는 두 가지 벤치마크 데이터셋에서 광범위한 실험을 수행하였으며, 현재의 강력한 기준 모델들을 모두 상회하며 통합형 다중 의도 SLU의 최신 기술 수준을 한층 끌어올렸다. 또한, 본 연구에서 개발한 ChatGPT 기반 벤치마크를 통해 다중 의도 SLU 분야에는 여전히 큰 잠재적 연구 가치가 존재함을 입증하였다.

Uni-MIS: 다중 시각적 의도-슬롯 상호작용을 통한 통합 다중 의도 음성 언어 이해 | 최신 연구 논문 | HyperAI초신경