2달 전

활성화된 화자 검출을 위한 경량 모델

Liao, Junhua ; Duan, Haihan ; Feng, Kanghui ; Zhao, Wanbing ; Yang, Yanbing ; Chen, Liangyin
활성화된 화자 검출을 위한 경량 모델
초록

활성화된 화자 검출은 오디오-비디오 시나리오 이해에서 도전적인 과제로, 한 명 이상의 화자가 있는 상황에서 누가 말하고 있는지를 감지하는 것을 목표로 합니다. 이 과제는 화자 일지 작성, 화자 추적, 자동 비디오 편집 등의 응용 프로그램에서 매우 중요하기 때문에 많은 주목을 받았습니다. 기존 연구들은 여러 후보 정보를 입력하고 복잡한 모델을 설계하여 성능을 개선하려고 노력했습니다. 이러한 방법들이 뛰어난 성능을 달성했음에도 불구하고, 메모리와 계산 능력의 높은 소비량으로 인해 자원 제약이 있는 시나리오에서는 적용하기 어려웠습니다. 따라서 우리는 입력 후보를 줄이고 2D 및 3D 컨볼루션을 분할하여 오디오-비디오 특징을 추출하며, 낮은 계산 복잡도를 가진 게이트 순환 유닛(GRU)을 사용하여 다중 모달 모델링을 수행함으로써 경량화된 활성화된 화자 검출 아키텍처를 구축하였습니다. AVA-ActiveSpeaker 데이터셋에서의 실험 결과는 우리의 프레임워크가 경쟁력 있는 mAP 성능(94.1% vs. 94.2%)을 달성하였으며, 특히 모델 매개변수(1.0M vs. 22.5M, 약 23배)와 FLOPs(0.6G vs. 2.6G, 약 4배) 측면에서 최신 방법보다 자원 비용이大幅降低的事实。此外,我们的框架在Columbia数据集中也表现出良好的性能,显示出其良好的鲁棒性。代码和模型权重可在https://github.com/Junhua-Liao/Light-ASD 获取。(注:最后一段中出现了中文,我已将其翻译为韩文,以保持全文一致性。)AVA-ActiveSpeaker 데이터셋에서의 실험 결과는 우리의 프레임워크가 경쟁력 있는 mAP 성능(94.1% vs. 94.2%)을 달성하였으며, 특히 모델 매개변수(1.0M vs. 22.5M, 약 23배)와 FLOPs(0.6G vs. 2.6G, 약 4배) 측면에서 최신 방법보다 자원 비용이 크게 감소한 사실을 보여줍니다. 또한 우리의 프레임워크는 Columbia 데이터셋에서도 우수한 성능을 보여주며, 그 좋은 견고성을 입증하였습니다. 코드와 모델 가중치는 https://github.com/Junhua-Liao/Light-ASD 에서 제공됩니다.

활성화된 화자 검출을 위한 경량 모델 | 최신 연구 논문 | HyperAI초신경