오디오 캡셔닝

오디오 캡셔닝은 오디오 콘텐츠를 텍스트 설명으로 변환하는 작업입니다. 이 작업의 주요 목표는 오디오 인코더를 통해 오디오 특성을 포착하고, 디코더를 사용하여 자연어 설명을 생성하여 오디오 콘텐츠를 정확하게 이해하고 표현하는 것입니다. 이 작업은 멀티미디어 콘텐츠 분석과 청각 장애인이 오디오 정보를 이해하는 데 큰 활용 가치가 있습니다. 그러나 기존의 기계 번역 및 이미지 캡셔닝 평가 지표는 오디오 설명의 품질을 평가하는 데 완전히 적합하지 않기 때문에, 연구자들은 Sentence-BERT와 같은 사전 학습된 언어 모델을 활용한 새로운 평가 방법을 탐구하고 있습니다.