2달 전

AudioCLIP: CLIP의 이미지, 텍스트 및 오디오 확장

Guzhov, Andrey ; Raue, Federico ; Hees, Jörn ; Dengel, Andreas
AudioCLIP: CLIP의 이미지, 텍스트 및 오디오 확장
초록

과거에는 소리 분류 영역이 다른 영역의 방법을 적용함으로써 크게 발전하였습니다. 오늘날 우리는 특정 영역 간의 작업과 접근 방식을 융합하는 경향을 관찰할 수 있으며, 이는 커뮤니티에게 새로운 뛰어난 모델들을 제공하고 있습니다. 본 연구에서는 텍스트와 이미지뿐만 아니라 오디오도 처리할 수 있는 CLIP 모델의 확장을 제시합니다. 제안된 모델은 AudioSet 데이터셋을 사용하여 CLIP 프레임워크에 ESResNeXt 오디오 모델을 통합합니다. 이러한 조합은 제안된 모델이 양모달 및 단모달 분류와 쿼리를 수행하면서, CLIP가 미확인 데이터셋에 대해 제로샷 추론 방식으로 일반화할 수 있는 능력을 유지하게 합니다. AudioCLIP은 환경 소리 분류(ESC) 작업에서 새로운 최고 성능 결과를 달성하여 UrbanSound8K 데이터셋에서 90.07%, ESC-50 데이터셋에서 97.15%의 정확도를 기록하며 다른 접근 방식들을 능가하였습니다. 또한 같은 데이터셋에서 제로샷 ESC 작업에 대한 새로운 기준점(각각 68.78%와 69.40%)을 설정하였습니다. 마지막으로, 우리는 제안된 모델의 크로스모달 쿼리 성능 및 전체 학습과 부분 학습의 결과에 미치는 영향을 평가하였습니다. 재현성을 위해 우리의 코드는 공개되었습니다.

AudioCLIP: CLIP의 이미지, 텍스트 및 오디오 확장 | 최신 연구 논문 | HyperAI초신경