18일 전

AudioCaps: 자연 환경에서의 오디오에 대한 캡션 생성

{Chris Dongjoo Kim, Byeongchang Kim, Hyunmin Lee, Gunhee Kim}
AudioCaps: 자연 환경에서의 오디오에 대한 캡션 생성
초록

음성 캡션 생성(이하 음성 캡션) 문제에 대해 탐구한다. 이는 실제 환경에서 어떤 종류의 음성에 대해서도 자연어로 설명을 생성하는 것으로, 이전 연구에서 놀랍도록 미비하게 다뤄진 문제이다. 우리는 AudioSet 데이터셋을 기반으로 크라우드소싱 방식으로 수집한 46,000개의 음성 클립과 인간이 작성한 텍스트 쌍으로 구성된 대규모 데이터셋을 제안한다. 철저한 실험적 연구를 통해 수집한 캡션들이 음성 입력에 실제로 충실함을 입증함과 동시에, 음성 캡션 작업에 효과적인 음성 표현 방식과 캡션 생성 모델의 형태를 발견하였다. 광범위한 실험을 통해 성능 향상에 기여하는 두 가지 새로운 구성 요소를 제안한다. 하나는 상향식 다중 스케일 인코더이며, 다른 하나는 정렬된 의미적 어텐션(Aligned Semantic Attention)이다.

AudioCaps: 자연 환경에서의 오디오에 대한 캡션 생성 | 최신 연구 논문 | HyperAI초신경