17일 전
fairseq S2T: fairseq를 활용한 빠른 음성-텍스트 모델링
Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Sravya Popuri, Dmytro Okhonko, Juan Pino

초록
우리는 엔드투엔드 음성 인식 및 음성-텍스트 번역과 같은 음성-텍스트(S2T) 모델링 작업을 위한 fairseq 확장인 fairseq S2T을 소개합니다. 이는 확장성과 확장 가능성에 주의 깊게 설계된 fairseq의 전통을 따릅니다. 데이터 전처리, 모델 학습, 오프라인(온라인) 추론에 이르는 엔드투엔드 워크플로우를 제공하며, 최신의 RNN 기반, Transformer 기반, Conformer 기반 모델을 구현하고, 상세한 학습 레시피를 오픈소스로 공개합니다. fairseq의 기계 번역 모델 및 언어 모델은 다중 작업 학습 또는 전이 학습을 위해 S2T 워크플로우에 원활하게 통합될 수 있습니다. fairseq S2T의 문서와 예제는 다음 주소에서 확인할 수 있습니다: https://github.com/pytorch/fairseq/tree/master/examples/speech_to_text.