2달 전

MediaEval 2015을 위한 음성 시스템에서의 SPL-IT-UC 예제 기반 검색

{Fernando Perdigão, Luis Castela, Jorge Proença}

초록

이 문서는 2015년 MediaEval의 '예시 기반 음성 검색(QUESST)' 과제를 위해 포르투갈의 통신연구소(Coimbra 소재 연구소 지점) 및 코임브라 대학교의 신호처리연구실(SPL-IT-UC 팀)에서 개발한 시스템에 대해 설명한다. 제출된 시스템은 주파수 영역에서 스펙트럼 제거 기법을 적용하여 상당한 배경 잡음을 필터링하며, 5개의 음소 인식기로부터 후행 확률(Posterior Probability)을 특징량으로 추출한다. 또한, 복잡한 쿼리에 특화된 동적 시간 왜곡(DTW, Dynamic Time Warping)의 새로운 변형을 구현하고, 선형 캘리브레이션과 특징 융합을 통해 성능을 최적화한다. 올해의 과제는 음향 조건과 일치 케이스 측면에서 특히 도전적인 요소를 지녔으나, 복잡한 접근 방식들을 모두 융합했을 때 가장 우수한 성능을 기록함을 관찰할 수 있었다.