17일 전
EnCLAP++: 자동 오디오 캡션 성능 최적화를 위한 EnCLAP 프레임워크 분석
Jaeyeon Kim, Minjeon Jeon, Jaeyoon Jung, Sang Hoon Woo, Jinjoo Lee

초록
이 연구에서는 자동 음성 캡션 분야의 최신 기술인 EnCLAP 프레임워크를 분석하고 최적화하는 것을 목표로 한다. 우리는 음성 인코더 구성 요소를 수정함으로써 미치는 영향을 탐구하고, 다양한 데이터셋 규모를 활용한 사전학습의 효과를 검토하며, 재정렬(재정렬) 기법의 효용성을 분석한다. 광범위한 실험과 생성된 캡션에 대한 정량적 분석을 통해 원래 모델을 크게 능가하는 개선된 버전인 EnCLAP++를 개발하였다.