18일 전

오디오 캡셔닝 트랜스포머 성능 향상을 위한 전이 학습 및 보조 학습의 재고

{Sung Won Han, Seungjin Lee, Dongwon Kim, Jin Sob Kim, Hyun Joon Park, WooSeok Shin}
초록

자동 오디오 캡셔닝(AAC)의 성능은 트랜스포머 기반 인코더와 전이 학습을 통해 상당히 향상되었지만, 다음과 같은 문제들로 인해 성능 향상이 제한되고 있다. (1) 사전 학습 단계와 미세 조정 단계 간 입력 패치 크기의 불일치, (2) 입력과 캡션 간의 로컬 수준 관계 부족. 본 논문에서는 기존 방법과 달리 입력 패치 크기를 유지하는 간단한 전이 학습 방식을 제안하여 입력 불일치 문제를 해결한다. 또한, 어텐션 풀링 방법을 활용하여 글로벌 및 로컬 수준의 정보를 효과적으로 표현하는 패치 단위 키워드 추정 브랜치를 제안한다. AudioCaps 데이터셋에 대한 실험 결과는 제안된 학습 방식과 방법이 성능 향상에 크게 기여함을 보여준다. 마지막으로, 시각화 결과를 통해 제안된 어텐션 풀링 방법이 AAC 시스템 내에서 로컬 수준 정보를 효과적으로 탐지함을 입증한다.