16일 전

시각 및 음성 정보를 통한 다중모달 기계 번역

Umut Sulubacak, Ozan Caglayan, Stig-Arne Grönroos, Aku Rouhe, Desmond Elliott, Lucia Specia, Jörg Tiedemann
시각 및 음성 정보를 통한 다중모달 기계 번역
초록

다중모달 기계 번역은 입력 데이터에 대한 유용한 대안적 시각을 제공할 수 있다고 가정하여, 하나 이상의 모달리티에서 정보를 추출하는 기술을 의미한다. 이 분야에서 가장 두드러진 과제들은 음성 언어 번역, 이미지 유도 번역, 영상 유도 번역으로, 각각 음성과 시각적 모달리티를 활용한다. 이러한 과제들은 음성 인식, 이미지 캡셔닝, 영상 캡셔닝과 같은 단일 언어 기반 과제들과 달리, 모델이 다른 언어로 출력을 생성해야 한다는 점에서 구분된다. 본 논문은 이러한 과제들을 위한 주요 데이터 자원과 관련된 평가 캠페인, 엔드투엔드 및 파이프라인 접근법의 최신 기술 동향, 그리고 성능 평가의 도전 과제를 종합적으로 검토한다. 마지막으로, 향후 연구 방향에 대해 논의하며, 보다 광범위하고 도전적인 데이터셋의 필요성, 모델 성능에 대한 타겟화된 평가의 중요성, 그리고 입력 공간과 출력 공간 모두에서의 다중모달성 확보의 필요성을 제시한다.

시각 및 음성 정보를 통한 다중모달 기계 번역 | 최신 연구 논문 | HyperAI초신경