8일 전

차이나오픈: 오픈월드 다중모달 학습을 위한 데이터셋

차이나오픈: 오픈월드 다중모달 학습을 위한 데이터셋
초록

이 논문은 중국의 인기 있는 동영상 공유 플랫폼인 빌리빌리(Bilibili)에서 수집한 데이터셋인 ChinaOpen을 소개하며, 오픈월드 다중모달 학습을 위한 새로운 연구 기반을 제시한다. 현재 최신의 다중모달 학습 네트워크는 자동 동영상 주석 생성 및 다중모달 동영상 검색에서 놀라운 성능을 보이고 있으나, 이러한 모델들의 훈련 및 평가 작업은 주로 영어 텍스트를 포함한 유튜브 동영상 데이터셋을 기반으로 수행되고 있다. 따라서 이러한 모델들이 중국어 데이터에 대해 실제로 얼마나 효과적인지는 아직 검증되지 않은 상태이다. 새로운 환경에서의 다중모달 학습을 지원하기 위해, 사용자 생성 타이틀과 태그와 연관된 5만 개의 빌리빌리 동영상으로 구성된 웹리 애노테이션 기반의 훈련 세트인 ChinaOpen-50k를 구축하였다. 저품질 동영상을 사전에 제거하기 위해 텍스트 기반 및 콘텐츠 기반의 데이터 정제 작업을 수행하였다. 다각도의 평가를 위해, 수작업으로 라벨링된 테스트 세트인 ChinaOpen-1k를 구성하였다. 각 테스트 동영상은 수작업으로 확인된 사용자 타이틀과 수작업으로 작성된 캡션을 포함하며, 시각 콘텐츠에 나타나는 객체/행동/장면을 설명하는 수작업 태깅도 수행되었다. 또한 원본 사용자 태그 역시 수작업으로 검증하였다. 더불어, 모든 중국어 텍스트를 영어로 번역함으로써 ChinaOpen-1k는 영어 데이터로 훈련된 모델의 평가에도 적합하게 구성되었다. ChinaOpen 외에도, 중국어 동영상 캡셔닝을 위한 생성형 동영상-텍스트 트랜스포머(Generative Video-to-text Transformer, GVT)를 제안한다. 제안된 새로운 데이터셋에서 최신의 단일 작업 및 다중 작업 모델들을 광범위하게 평가함으로써, 여러 가지 새로운 발견과 통찰을 도출하였다.

차이나오픈: 오픈월드 다중모달 학습을 위한 데이터셋 | 최신 연구 논문 | HyperAI초신경