17일 전

Speechformer: 직접 음성 번역에서 정보 손실 감소

Sara Papi, Marco Gaido, Matteo Negri, Marco Turchi
Speechformer: 직접 음성 번역에서 정보 손실 감소
초록

기반 모델인 트랜스포머는 음성 번역을 포함한 다양한 연구 분야에서 최고 수준의 성능을 달성하며 점점 더 인기를 끌고 있다. 그러나 트랜스포머는 입력 시퀀스 길이에 대해 2차 복잡도를 가지므로, 일반적으로 긴 시퀀스로 표현되는 오디오 신호에 그대로 적용하기 어렵다. 현재의 해결 방안은 원시 오디오 특징에 대해 고정된 샘플링을 기반으로 한 초기의 비최적 압축을 사용한다. 이로 인해 고차원 레이어에서 유용한 언어학적 정보를 접근할 수 없게 된다. 이 문제를 해결하기 위해 우리는 Speechformer을 제안한다. 이 아키텍처는 어텐션 레이어에서 메모리 사용량을 줄여 초기의 손실 압축을 피하고, 더 정교한 언어학적 기준에 따라 고차원에서만 정보를 집계한다. 세 개의 언어 쌍(en→de/es/nl)에 대한 실험 결과, 제안한 방법의 효과성을 입증하였으며, 표준 MuST-C 코퍼스에서는 최대 0.8의 BLEU 향상, 저자원 환경에서는 최대 4.0의 BLEU 향상을 달성하였다.