2달 전
장치 내 방향성 청각을 위한 하이브리드 신경망
Wang, Anran ; Kim, Maruchi ; Zhang, Hao ; Gollakota, Shyamnath

초록
장치 내 방향성 청취는 특정 방향에서 오디오 소스를 분리하면서 엄격한 인간이 인지하지 못하는 지연 시간 요구 사항을 충족해야 합니다. 신경망은 전통적인 빔포머보다 훨씬 더 우수한 성능을 달성할 수 있지만, 기존의 모든 모델은 저지연 인과적 추론을 지원하는 데 있어 계산적으로 제약된 웨어러블 장치에서 부족합니다. 우리는 전통적인 빔포머와 사용자 정의 경량 신경망을 결합한 하이브리드 모델인 DeepBeam을 소개합니다. 전자(전통적인 빔포머)는 후자(경량 신경망)의 계산 부담을 줄이고 일반화 능력을 향상시키며, 후자는 메모리와 계산 오버헤드를 더욱 줄여 실시간 및 저지연 작업을 가능하게 설계되었습니다. 우리의 평가는 합성 데이터에서 최신 인과적 추론 모델과 유사한 성능을 보여주면서 모델 크기를 5배, 초당 계산량을 4배, 처리 시간을 5배 감소시키고 실제 하드웨어 데이터에 대해 더 잘 일반화된다는 것을 입증하였습니다. 또한, 우리의 실시간 하이브리드 모델은 저전력 웨어러블 장치용으로 설계된 모바일 CPU에서 8 ms 안에 실행되며, 전체 지연 시간은 17.5 ms를 달성하였습니다.