2달 전

Quaternion Convolutional Neural Networks for End-to-End Automatic Speech Recognition Quaternion 기반 합성곱 신경망을 이용한 단일 경로 자동 음성 인식

Titouan Parcollet; Ying Zhang; Mohamed Morchid; Chiheb Trabelsi; Georges Linarès; Renato De Mori; Yoshua Bengio
Quaternion Convolutional Neural Networks for End-to-End Automatic Speech Recognition
Quaternion 기반 합성곱 신경망을 이용한 단일 경로 자동 음성 인식
초록

최근에, 순환 신경망(RNN) 또는 합성곱 신경망(CNN)과 결합된 연결주의 시계열 분류(CTC) 모델이 말소리 인식 시스템의 엔드투엔드(end-to-end) 방식 훈련을 더욱 쉽게 만들어주었습니다. 그러나 실수형 모델에서는 멜 필터 뱅크 에너지와 이를 통해 얻은 케플스트랄 계수, 그리고 이들의 1차 및 2차 도함수가 개별 요소로 처리되는 반면, 이러한 구성요소들을 복합적인 단위로 처리하는 것이 자연스러운 대안입니다. 우리는 이러한 요소들을 쿼터니언(quaternion) 형태로 그룹화하고, 확립된 쿼터니언 대수를 사용하여 이러한 쿼터니언을 처리하는 방법을 제안합니다. 쿼터니언 수와 쿼터니언 신경망은 다차원 입력을 단일 엔티티로 처리하고 내부 의존성을 인코딩하며, 실수형 모델보다 적은 학습 매개변수로 많은 작업을 해결할 수 있는 효율성을 보여주었습니다. 본 논문에서는 CTC 모델과 함께 시퀀스-시퀀스(sequence-to-sequence) 매핑에 사용하기 위해 쿼터니언 값 합성곱 신경망(QCNN)에서 여러 특징 관점을 통합하는 방법을 제안합니다. TIMIT 코퍼스를 이용한 음소 인식 실험에서 간단한 QCNNs가 유망한 결과를 보고하였습니다. 구체적으로, QCNNs는 실수형 CNNs 기반 경쟁 모델보다 적은 학습 매개변수로 더 낮은 음소 오류율(PER)을 달성하였습니다.

Quaternion Convolutional Neural Networks for End-to-End Automatic Speech Recognition Quaternion 기반 합성곱 신경망을 이용한 단일 경로 자동 음성 인식 | 최신 연구 논문 | HyperAI초신경