
다중 모드 학습은 텍스트와 비디오 데이터를 포함하는 다양한 연구 과제에서 많은 연구자들의 관심을 받고 있습니다. 이는 텍스트-비디오 검색, 비디오-텍스트 검색, 그리고 비디오 캡셔닝 등과 같은 과제를 포함합니다. 이러한 어려운 과제들을 위한 많은 알고리즘이 제안되었지만, 대부분의 알고리즘은 영어 데이터셋에서 개발되었습니다. 인도네시아어가 세계에서 가장 많이 사용되는 언어 중 하나임에도 불구하고, 인도네시아어 문장이 포함된 다중 모드 비디오-텍스트 연구는 아직 충분히 탐구되지 않았으며, 이는 공개 벤치마크 데이터셋의 부재 때문일 가능성이 높습니다. 이 문제를 해결하기 위해, 우리는 MSVD 데이터셋의 영어 문장을 인도네시아어 문장으로 번역하여 최초로 공개 인도네시아 비디오-텍스트 데이터셋을 구축했습니다.우리의 데이터셋을 사용하여, 영어 비디오-텍스트 데이터셋을 위해 개발된 신경망 모델들을 세 가지 과제(즉, 텍스트-비디오 검색, 비디오-텍스트 검색, 그리고 비디오 캡셔닝)에 대해 학습시켰습니다. 최근의 신경망 기반 접근 방식은 주로 영어 시각-언어 데이터셋에서 사전학습된 특성 추출기를 활용하는 경우가 많았습니다. 그러나 인도네시아어 문장이 포함된 사전학습 자원의 이용 가능성이 상대적으로 제한적이기 때문에, 이러한 접근 방식들이 우리의 데이터셋에 적용될 때 성능이 의심스럽습니다. 이를 극복하기 위해, 우리는 영어 데이터셋에서 사전학습된 특성 추출기를 활용한 교차 언어 전이 학습(cross-lingual transfer learning) 방법을 적용하고, 그 다음으로 우리의 인도네시아 데이터셋에서 모델을 미세 조정(fine-tuning)하였습니다.실험 결과는 이 접근 방식이 모든 평가 지표에 걸쳐 세 가지 과제의 성능 향상에 도움이 됨을 보여주었습니다. 마지막으로, 우리 데이터셋을 활용한 잠재적인 미래 연구 방향에 대해 논의하며, 인도네시아 다중 모드 비디오-텍스트 과제에 대한 추가 연구를 유발하길 바랍니다. 우리는 우리의 데이터셋과 실험 결과가 커뮤니티에 가치 있는 기여를 할 수 있다고 믿습니다. 우리의 데이터셋은 GitHub에서 제공됩니다.