2달 전

aTENNuate: 원시 오디오에서 깊은 SSM을 활용한 최적화된 실시간 음성 향상

Pei, Yan Ru ; Shrivastava, Ritik ; Sidharth, FNU
aTENNuate: 원시 오디오에서 깊은 SSM을 활용한 최적화된 실시간 음성 향상
초록

우리는 aTENNuate를 소개합니다. 이는 효율적인 온라인 원시 음성 향상을 위해 구성된 간단한 딥 상태공간 오토인코더입니다. 네트워크의 성능은 주로 원시 음성 잡음 제거에 대해 평가되며, 초해상도 및 양자화 해제 등의 작업에 대한 추가 평가도 수행됩니다. 우리는 aTENNate를 VoiceBank + DEMAND 및 Microsoft DNS1 합성 테스트 세트에서 벤치마킹했습니다. 이 네트워크는 PESQ 점수, 매개변수 수, MACs, 그리고 지연 시간 측면에서 이전 실시간 잡음 제거 모델들을 능가합니다. 원시 웨이브폼 처리 모델로서도, 이 모델은 청결한 신호에 대한 높은 충실성을 유지하면서 최소한의 청각적 아티팩트를 보여줍니다. 또한, 입력 신호가 4000Hz와 4비트로 압축되더라도 성능을 유지함으로써 저자원 환경에서 일반적인 음성 향상 기능을 갖추고 있음을 시사합니다. pip install attenuate 명령어를 사용하여 aTENNate를 설치해 보세요.

aTENNuate: 원시 오디오에서 깊은 SSM을 활용한 최적화된 실시간 음성 향상 | 최신 연구 논문 | HyperAI초신경