9일 전

게이트형 순환 단위를 이용한 오디오 캡셔닝

Ayşegül Özkaya Eren, Mustafa Sert
게이트형 순환 단위를 이용한 오디오 캡셔닝
초록

음성 캡션 생성은 주어진 음성 클립에 대한 텍스트 설명을 자동으로 생성하는 최근에 제안된 과제이다. 본 연구에서는 음성 임베딩을 활용한 새로운 딥 네트워크 아키텍처를 제안하여 음성 캡션을 예측하고자 한다. 음성 에너지의 로그 멜 스펙트럼 외에도 음성 특징을 효과적으로 추출하기 위해 VGGish 음성 임베딩 모델을 활용하여 음성 임베딩이 음성 캡션 작업에서의 활용 가능성에 대해 탐색하였다. 제안하는 아키텍처는 음성과 텍스트 입력 모달을 별도로 인코딩한 후 디코딩 단계 이전에 통합하는 방식으로 구성되어 있다. 음성 인코딩은 양방향 게이트드 순환 단위(BiGRU)를 통해 수행되며, 텍스트 인코딩에는 GRU가 사용된다. 이후 본 모델의 성능을 최신에 발표된 음성 캡션 평가 데이터셋인 Clotho를 이용하여 평가함으로써 기존 연구 결과와 실험 결과를 비교하였다. 실험 결과, 제안하는 BiGRU 기반의 딥 모델이 기존 최고 성능 모델을 상회함을 확인할 수 있었다.