2달 전

실시간 대상 소음 추출

Veluri, Bandhav ; Chan, Justin ; Itani, Malek ; Chen, Tuochao ; Yoshioka, Takuya ; Gollakota, Shyamnath
실시간 대상 소음 추출
초록

우리는 실시간 및 스트리밍 대상 사운드 추출을 달성한 첫 번째 신경망 모델을 제시합니다. 이를 위해 우리는 Waveformer를 제안하는데, 이는 인코더로 다ilated 캐주얼 컨볼루션 레이어의 스택을 사용하고 디코더로 트랜스포머 디코더 레이어를 사용하는 인코더-디코더 구조입니다. 이 하이브리드 아키텍처는 큰 수용 영역을 효율적으로 처리하기 위해 다ilated 캐주얼 컨볼루션을 사용하면서 동시에 트랜스포머 기반 아키텍처의 일반화 성능도 활용합니다. 우리의 평가 결과는 이 작업에 대한 기존 모델과 비교하여 최대 2.2-3.3 dB의 SI-SNRi 개선을 보여주며, 모델 크기는 1.2-4배 작고 실행 시간은 1.5-2배 적습니다. 코드, 데이터셋, 오디오 샘플은 다음과 같이 제공됩니다: https://waveformer.cs.washington.edu/.

실시간 대상 소음 추출 | 최신 연구 논문 | HyperAI초신경