초록
발음 구별 특성과 음성 전사가 발음 보조 학습, 텍스트-음성 변환(TTS), 발화 생성 메커니즘 연구, 저자원 언어의 음성 인식 등 음성 관련 작업에서 중요한 역할을 합니다. 최근 몇 년 동안, 음성 관련 작업에 대한 엔드투엔드 접근 방식이 많은 주목을 받았습니다. 본 연구에서는 TIMIT \cite{TIMIT-1992}와 같은 작은 훈련 세트를 사용하여 전화(phones) 인식에 Listen, Attend and Spell (LAS) \cite{Chan-LAS2016} 아키텍처를 적용합니다. 또한, 어텐션 모델을 사용하여 발음 방법과 발음 위치 검출기를 엔드투엔드로 훈련시키는 새로운 디코딩 기술을 소개합니다. 우리는 또한 다중태스크 학습 설정에서 전화 인식과 발음 특징 검출의 결합을 탐구합니다.