
초록
음성 캡션 생성은 주어진 음성 클립에 대한 텍스트 설명을 자동으로 생성하는 최근에 제안된 과제이다. 본 연구에서는 음성 임베딩을 활용한 새로운 딥 네트워크 아키텍처를 제안하여 음성 캡션을 예측하고자 한다. 음성 에너지의 로그 멜 스펙트럼 외에도 음성 특징을 효과적으로 추출하기 위해 VGGish 음성 임베딩 모델을 활용하여 음성 임베딩이 음성 캡션 작업에서의 활용 가능성에 대해 탐색하였다. 제안하는 아키텍처는 음성과 텍스트 입력 모달을 별도로 인코딩한 후 디코딩 단계 이전에 통합하는 방식으로 구성되어 있다. 음성 인코딩은 양방향 게이트드 순환 단위(BiGRU)를 통해 수행되며, 텍스트 인코딩에는 GRU가 사용된다. 이후 본 모델의 성능을 최신에 발표된 음성 캡션 평가 데이터셋인 Clotho를 이용하여 평가함으로써 기존 연구 결과와 실험 결과를 비교하였다. 실험 결과, 제안하는 BiGRU 기반의 딥 모델이 기존 최고 성능 모델을 상회함을 확인할 수 있었다.