12일 전
DENet: 오디오 감시 응용을 위한 딥 아키텍처
{Mario Vento, Alessia Saggese, Antonio Roberto, Antonio Greco}
초록
최근 몇 년간 과학계와 시장 모두에서 음성 감시 시스템 설계에 대한 큰 관심이 쏠리고 있다. 이러한 시스템은 음성 스트림을 분석하고 관심 있는 사건을 식별할 수 있어야 하며, 특히 보안 분야에서는 영상 분석 시스템의 대안으로 활용될 뿐만 아니라, 이를 함께 사용하는 경우에도 유용하다. 이러한 맥락에서 본 논문에서는 새로운 순환 합성 신경망 아키텍처인 DENet을 제안한다. 이 구조는 '노이즈 제거-강화(Denoising-Enhancement, DE)' 레이어라는 새로운 레이어를 기반으로 하며, 밴드 필터링된 신호의 구성 요소에 주의 맵(attention map)을 적용함으로써 원신호의 노이즈 제거 및 향상 기능을 수행한다. 최신 기법들과 달리 DENet은 손실 없는 원시 파형(raw waveform)을 입력으로 받아, 제안된 레이어와 양방향 게이팅 순환 단위(bidirectional gated recurrent unit)를 결합함으로써 시간에 따라 변화하는 관심 주파수의 진화를 자동으로 학습할 수 있다. 연속 프레임(동일한 사건에 속하는)에 대한 분류 결과로부터 피드백을 활용함으로써, 제안된 방법은 잘못된 분류를 크게 줄일 수 있다. 본 연구에서는 MIVIA Audio Events 및 MIVIA Road Events 공개 데이터셋을 대상으로 실험을 수행하였으며, 기존 최신 기법들과 비교하여 제안한 접근법의 효과성을 입증하였다.