2달 전

MediaEval 2014을 위한 음성 시스템에서의 SPL-IT 예제 기반 쿼리 검색

{Fernando Perdigão, Arlindo Veiga, Jorge Proença}

초록

이 문서는 2014년 MediaEval의 '음성 검색을 위한 예시 기반 질의(QUESST)' 과제에 대해 포르투갈의 통신연구소(Coimbra 지역) 소속 음성처리연구실(SPL-IT)이 제출한 시스템에 대해 간략히 설명한다. 본 연구에서 제안하는 방법은 세 가지 다른 언어를 사용한 음소 인식 시스템의 결과를 융합하는 데 기반을 두고 있다. 본 과제에서 나타나는 특수한 검색 사례들을 탐지할 수 있도록, 후보확률맵(posteriorgram) 거리 기반의 동적 시간 왜곡(DTW) 알고리즘의 개선된 버전을 개발하였다. 주요 제출물은 전체 질의를 탐지하기 위한 단순한 DTW와 질의의 마지막 부분을 자르는 것을 허용하는 방법을 결합한 접근법을 사용하였다. 후속 제출물은 과제에서 제시된 모든 검색 가능성에 대응하는 다섯 가지 접근법을 융합하였으나, 평가 데이터셋에서 유의미한 성능 향상은 유형 3 질의에 대해서만 관찰되었다.