17일 전

시각과 언어를 국지적 내러티브로 연결하기

Jordi Pont-Tuset, Jasper Uijlings, Soravit Changpinyo, Radu Soricut, Vittorio Ferrari

초록

우리는 시각과 언어를 연결하는 새로운 다중모달 이미지 주석 형태인 '지역화된 내러티브(Localized Narratives)'를 제안한다. 우리는 주석 작성자가 이미지를 설명하는 음성 녹음을 동시에 수행하면서, 설명하고 있는 영역 위에 마우스 커서를 위치시키도록 요청한다. 음성과 마우스 커서의 동기화가 이루어지기 때문에, 설명 속의 각 단어를 정확히 시각적 영역과 연결할 수 있다. 이 밀도 높은 시각적 기반화는 단어당 마우스 이동 경로 세그먼트의 형태로 나타나며, 우리 데이터에만 존재하는 고유한 특징이다. 우리는 총 849만 개의 이미지에 대해 지역화된 내러티브를 주석 처리하였으며, 이는 COCO, Flickr30k, ADE20K 전체 데이터셋과 Open Images의 671만 개 이미지를 포함한다. 모든 데이터는 공개적으로 제공된다. 우리는 이러한 주석에 대한 광범위한 분석을 통해, 주석이 다양하고 정확하며 생산성이 높다는 점을 입증한다. 또한, 제어 가능한 이미지 캡션 생성에 있어 이러한 주석의 유용성을 실험적으로 확인하였다.