LLM과 텍스트 쿼리 분리를 활용한 노이즈에 강한 소음 이벤트 검출

소음 환경에서의 사운드 이벤트 감지(Sound Event Detection, SED)는 겹치는 소음이 목표 이벤트를 가리기 때문에 어려움을 겪습니다. 언어 쿼리 기반 오디오 소스 분리(Language-queried Audio Source Separation, LASS)는 노이즈가 많은 클립에서 목표 사운드 이벤트를 분리하는 것을 목표로 합니다. 그러나 정확한 목표 사운드가 알려져 있지 않은 경우, 특히 노이즈가 많은 테스트 세트에서는 성능이 저하될 수 있습니다. 이러한 문제를 해결하기 위해 우리는 대형 언어 모델(Large Language Models, LLMs)의 능력을 활용하여 음향 데이터를 분석하고 요약합니다. LLMs를 사용하여 특정 노이즈 유형을 식별하고 선택함으로써, 우리는 노이즈에 강한 미세 조정을 위한 노이즈 증강 방법을 구현합니다. 미세 조정된 모델은 LASS 모델의 클립 단위 이벤트 예측을 텍스트 쿼리로 제공하는 데 사용됩니다. 우리의 연구 결과는 제안된 방법이 노이즈 환경에서 SED 성능을 개선한다는 것을 보여줍니다. 본 연구는 LLMs를 활용한 초기적인 노이즈에 강한 SED 적용 사례이며, SED에서 겹치는 이벤트 처리에 대한 유망한 방향성을 제시합니다. 코드와事前학습된 모델은 https://github.com/apple-yinhan/Noise-robust-SED에서 확인할 수 있습니다.注:在最后一句中,“事前学習된” 是“预训练的”的韩文翻译,但为了保持全文的一致性和正式性,建议使用“사전 학습된”。以下是修正后的版本:본 연구는 LLMs를 활용한 초기적인 노이즈에 강한 SED 적용 사례이며, SED에서 겹치는 이벤트 처리에 대한 유망한 방향성을 제시합니다. 코드와 사전 학습된 모델은 https://github.com/apple-yinhan/Noise-robust-SED에서 확인할 수 있습니다.