2달 전
MultiSubs: 대규모 다중 모드 및 다국어 데이터셋
Josiah Wang; Pranava Madhyastha; Josiel Figueiredo; Chiraag Lala; Lucia Specia

초록
본 논문은 언어에서 단어의 문맥적 사용을 이미지에 연결하는 연구를 촉진하기 위해 대규모 다중모달 및 다국어 데이터셋을 소개합니다. 이 데이터셋은 영화 자막에서 추출된 문장이 표현하는 개념을 명확하게 설명하기 위해 선택된 이미지로 구성되어 있습니다. 이 데이터셋은 다음과 같은 이유로 귀중한 자원입니다: (i) 이미지는 전체 문장이 아닌 텍스트 조각과 일치시켜져 있습니다; (ii) 하나의 텍스트 조각이나 문장에 대해 여러 개의 이미지를 사용할 수 있습니다; (iii) 문장들은 자유형식이며 실제 세계와 유사합니다; (iv) 병렬 텍스트는 다국어입니다. 우리는 인간이 수행하는 빈칸 채우기 게임을 설정하여 데이터셋의 자동 이미지 선택 과정의 품질을 평가하였습니다. 우리는 이 데이터셋의 활용성을 두 가지 자동 작업에서 보여주었습니다: (i) 빈칸 채우기; (ii) 어휘 번역. 인간 평가 결과와 자동 모델 결과는 이미지가 텍스트 문맥에 유용한 보완자료가 될 수 있음을 입증하였습니다. 이 데이터셋은 특히 자유형식 문장의 시각적 단어 연결 연구에 도움이 될 것이며, Creative Commons 라이선스 하에 https://doi.org/10.5281/zenodo.5034604에서 획득할 수 있습니다.