18일 전
TUKE at MediaEval 2015 QUESST
{Milan Rusko, Jozef Juhár, Matúš Pleva, Martin Lojka, Peter Viszlay, Jozef Vavrek}

초록
이 논문에서는 음성 검색 작업을 위한 예시 기반 질의 검색(QUESST)을 위한 검색 시스템을 제시한다. 이 시스템은 후보그램 기반 모델링 방법과 가중치를 적용한 빠른 순차적 동적 시간 왜곡 알고리즘(WFS-DTW)을 포함한다. 올해 주요 연구 노력은 사용 가능한 모든 말하기 언어에 대한 정보를 활용하여 언어에 의존적인 키워드 매칭 시스템을 개발하는 데 집중되었다. 검색 알고리즘은 지난해와 동일하지만, 검색 데이터베이스 내에서 사용되는 모든 언어에 대한 정보를 활용하는 방식에서 큰 혁신이 이루어졌다. 저자원 환경을 고려하여 언어에 의존적인 음성 단위 모델링(AUM) 접근법을 사용한 두 가지 시스템을 제출하였다. 첫 번째 시스템은 '감독형(Supervised)'으로, 시간 정렬 및 태그가 부여된 음성 데이터를 기반으로 사전에 잘 훈련된 4개의 음성 디코더를 사용한다. 두 번째 시스템은 '비감독형(Unsupervised)'으로, 특정 언어에 대해 음성 단위의 맹목적 분할(blind phonetic segmentation)을 수행하며, 해당 언어 정보는 Mediaeval 2013 및 Mediaeval 2014 데이터베이스에서 추출한다. 또한, 전반적인 검색 성능에 미치는 영향을 고려하여, 두 접근법 모두에 대해 특정 언어에 대한 음성 모델 적응을 위해 재학습 절차를 검토하였다.