17일 전

KVL-BERT: 시각적 공통이론 추론을 위한 지식 강화 시각-언어 BERT

Dandan Song, Siyi Ma, Zhanchen Sun, Sicheng Yang, Lejian Liao
KVL-BERT: 시각적 공통이론 추론을 위한 지식 강화 시각-언어 BERT
초록

이해 능력은 완전한 시각적 이해를 위한 핵심적인 능력이다. 기계가 인지 수준의 시각적 이해 및 추론 능력을 갖추기 위해 시각적 공통지식 추론(VCR, Visual Commonsense Reasoning) 작업이 도입되었다. VCR에서는 이미지에 대한 도전적인 질문이 주어졌을 때, 기계는 정확한 답변을 제시하고 그에 대한 근거를 제시해야 한다. 이미지 내용과 자연어의 공동 표현을 학습하기 위해 강력한 BERT 모델을 백본으로 활용하는 기법들은 VCR에서 유망한 성과를 보여주었다. 그러나 기존의 모든 방법들은 시각적 공통지식 추론 과정에서 공통지식을 활용하지 않았으며, 본 연구에서는 이 공통지식이 이 작업에 매우 유용할 것이라 믿는다. 공통지식을 활용하면, 이미지에 직접적으로 표현되지 않은 정보라도 인지적 추론을 통해 복잡한 질문에 답할 수 있다. 따라서 본 연구에서는 다중 모달 BERT에 공통지식을 통합하여, 새로운 지식 강화 시각-언어적 BERT(KVL-BERT) 모델을 제안한다. KVL-BERT는 시각적 및 언어적 정보 외에도 ConceptNet에서 추출한 외부 공통지식을 다층 트랜스포머에 통합한다. 입력 시퀀스 내에 삽입된 공통지식이 다른 무관한 구성 요소들과의 상호작용을 최소화하기 위해, 원문 문장의 구조적 정보와 의미 표현을 유지하기 위해 상대적 위치 임베딩과 마스크된 자기 주의(masked self-attention)를 제안한다. 태스크 특화 모델 및 일반적인 태스크 무관 사전학습 모델들과 비교했을 때, 본 연구의 KVL-BERT는 훨씬 뛰어난 성능을 보였다.

KVL-BERT: 시각적 공통이론 추론을 위한 지식 강화 시각-언어 BERT | 최신 연구 논문 | HyperAI초신경