17일 전

Scribosermo: 독일어 및 기타 언어를 위한 고속 음성-텍스트 모델

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif
Scribosermo: 독일어 및 기타 언어를 위한 고속 음성-텍스트 모델
초록

최근의 음성-텍스트 모델은 대부분 대규모 하드웨어 자원을 요구하며, 주로 영어로 훈련된다. 본 논문은 독일어, 스페인어, 프랑스어를 위한 음성-텍스트 모델을 제안하며, 다음과 같은 특징을 갖는다: (a) 모델이 작고, 라즈베리파이와 같은 마이크로컨트롤러에서 실시간으로 실행 가능하다. (b) 사전 훈련된 영어 모델을 활용함으로써, 일반 소비자용 하드웨어와 비교적 작은 데이터셋으로도 훈련이 가능하다. (c) 다른 솔루션들과 경쟁 가능하며, 특히 독일어에서는 그 성능을 뛰어넘는다. 이러한 측면에서 본 모델은 기존 접근법들에서 단지 일부 특징만을 포함한 것들과는 달리, 제시된 모든 장점을 통합하고 있다. 더불어 본 논문은 추가 데이터셋의 쉽게 확장이 가능한 방식을 고려하여 설계된 새로운 데이터셋 처리 라이브러리를 제공하며, 유사한 알파벳을 사용하는 다른 언어의 사전 훈련 모델을 활용한 전이 학습(transfer learning)을 위한 최적화된 방법도 제시한다.

Scribosermo: 독일어 및 기타 언어를 위한 고속 음성-텍스트 모델 | 최신 연구 논문 | HyperAI초신경