2달 전

ViLT: 컨볼루션이나 영역 감독 없이 시각 및 언어 변환기를 구현하는 방법

Wonjae Kim; Bokyung Son; Ildoo Kim
ViLT: 컨볼루션이나 영역 감독 없이 시각 및 언어 변환기를 구현하는 방법
초록

비전-언어 사전학습(Vision-and-Language Pre-training, VLP)은 다양한 연합 비전-언어 다운스트림 작업에서 성능을 향상시키고 있습니다. 현재의 VLP 접근 방식은 대부분 영역 감독(예: 객체 검출)과 컨볼루션 구조(예: ResNet)를 포함하는 이미지 특성 추출 과정에 크게 의존하고 있습니다. 그러나 문헌에서는 간과되었지만, 우리는 이 방법이 (1) 효율성/속도 측면에서 입력 특성을 단순히 추출하는 것이 다중 모달 상호작용 단계보다 훨씬 더 많은 계산을 필요로 하며, (2) 표현력 측면에서 시각적 임베더의 표현력과 미리 정의된 시각적 어휘에 의해 제한되어 있다는 문제점을 발견했습니다. 본 논문에서는 이러한 문제점을 해결하기 위해 최소한의 VLP 모델인 비전-언어 트랜스포머(Vision-and-Language Transformer, ViLT)를 제시합니다. ViLT는 시각 입력 처리가 텍스트 입력 처리와 동일하게 컨볼루션 없이 극도로 단순화되었습니다. 실험 결과, ViLT는 이전 VLP 모델들보다 수십 배 빠르면서도 경쟁력 있는 또는 더 나은 다운스트림 작업 성능을 보여주었습니다. 우리의 코드와 사전 학습된 가중치는 https://github.com/dandelin/vilt 에서 확인할 수 있습니다.

ViLT: 컨볼루션이나 영역 감독 없이 시각 및 언어 변환기를 구현하는 방법 | 최신 연구 논문 | HyperAI초신경