17일 전

감독형 다중모달 비트랜스포머를 이용한 이미지 및 텍스트 분류

Douwe Kiela, Suvrat Bhooshan, Hamed Firooz, Ethan Perez, Davide Testuggine

초록

자기지도형 양방향 트랜스포머 모델인 BERT와 같은 모델들은 다양한 텍스트 분류 작업에서 획기적인 성능 향상을 이끌어냈다. 그러나 현대 디지털 세계는 점점 더 다중모달화되고 있으며, 텍스트 정보는 종종 이미지와 같은 다른 모달리티와 함께 제공된다. 본 연구에서는 텍스트 및 이미지 인코더로부터 정보를 융합하는 지도 학습 기반의 다중모달 비트랜스포머 모델을 제안하며, 다양한 다중모달 분류 기준 평가 작업에서 최신 기준 성능을 달성하였다. 특히 다중모달 성능을 측정하기 위해 특별히 설계된 어려운 테스트 세트에서도 강력한 기존 베이스라인 모델들을 능가하는 성능을 보였다.