17일 전

Scribosermo: 독일어 및 기타 언어를 위한 고속 음성-텍스트 모델

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif

초록

최근의 음성-텍스트 모델은 대부분 대규모 하드웨어 자원을 요구하며, 주로 영어로 훈련된다. 본 논문은 독일어, 스페인어, 프랑스어를 위한 음성-텍스트 모델을 제안하며, 다음과 같은 특징을 갖는다: (a) 모델이 작고, 라즈베리파이와 같은 마이크로컨트롤러에서 실시간으로 실행 가능하다. (b) 사전 훈련된 영어 모델을 활용함으로써, 일반 소비자용 하드웨어와 비교적 작은 데이터셋으로도 훈련이 가능하다. (c) 다른 솔루션들과 경쟁 가능하며, 특히 독일어에서는 그 성능을 뛰어넘는다. 이러한 측면에서 본 모델은 기존 접근법들에서 단지 일부 특징만을 포함한 것들과는 달리, 제시된 모든 장점을 통합하고 있다. 더불어 본 논문은 추가 데이터셋의 쉽게 확장이 가능한 방식을 고려하여 설계된 새로운 데이터셋 처리 라이브러리를 제공하며, 유사한 알파벳을 사용하는 다른 언어의 사전 훈련 모델을 활용한 전이 학습(transfer learning)을 위한 최적화된 방법도 제시한다.