
초록
이 논문은 큐언스 칼리지(CUNY)의 스피치 랩(Speech Lab)에서 개발한 두 가지 예시 기반 쿼리(query-by-example) 시스템에 대해 설명한다. 본 연구의 시스템은 선택된 참조 파일들로부터 빠른 검색 결과를 반환하는 것을 목표로 하였다. 쿼리 및 참조 음성 파일의 음소 시퀀스를 추출하기 위해 체코어, 헝가리어, 러시아어를 대상으로 한 세 가지 음성 인식기(phonetic recognizers)를 활용하였다. 각 쿼리 시퀀스는 전역(global) 및 국부적(local) 정렬기(global and local aligners)를 사용하여 모든 참조 시퀀스와 비교되었다. 첫 번째 시스템에서는 시퀀스 정렬 결과를 기반으로 가장 가능성 높은 참조 파일을 예측하였으며, 두 번째 시스템에서는 최적의 국부적 기호 정렬을 제공하는 참조 시퀀스의 부분 시퀀스(subsequences)를 추출하여 제거(pruned)한 후, 쿼리 및 부분 시퀀스에 대해 39차원 MFCC 특징을 추출하였다. 두 시스템 모두 최적화된 DTW(dynamic time warping)를 사용하였으며, 테스트 데이터에서 각각 Cnxe 값이 0.9989와 1.0674를 기록하였다.