2달 전

VisualBERT: 시각 및 언어를 위한 간단하고 성능 좋은 기준모델

Liunian Harold Li; Mark Yatskar; Da Yin; Cho-Jui Hsieh; Kai-Wei Chang
VisualBERT: 시각 및 언어를 위한 간단하고 성능 좋은 기준모델
초록

우리는 시각 및 언어 작업의 광범위한 범위를 모델링하기 위한 간단하고 유연한 프레임워크인 VisualBERT를 제안합니다. VisualBERT는 입력 텍스트의 요소와 관련된 입력 이미지의 영역을 자기 주의(self-attention)를 통해 암시적으로 정렬하는 Transformer 레이어 스택으로 구성됩니다. 또한, 이미지 캡션 데이터를 사용하여 VisualBERT를 사전 학습하기 위해 두 가지 시각적으로 기반화된 언어 모델 목표를 제안합니다. VQA, VCR, NLVR2, Flickr30K 등 네 가지 시각 및 언어 작업에 대한 실험 결과, VisualBERT가 현저히 단순하면서도 최신 모델들을 능가하거나 버금간다는 것을 보여줍니다. 추가 분석은 VisualBERT가 명시적인 감독 없이 언어 요소를 이미지 영역에 기반화할 수 있으며, 동사와 그 인수에 해당하는 이미지 영역 사이의 관계까지 추적할 수 있다는 것을 입증합니다(예: syntax 관계에 대한 민감성).

VisualBERT: 시각 및 언어를 위한 간단하고 성능 좋은 기준모델 | 최신 연구 논문 | HyperAI초신경