17일 전
LaKo: 지식 기반 시각 질문 응답을 위한 후기 지식-텍스트 주입 기법
Zhuo Chen, Yufeng Huang, Jiaoyan Chen, Yuxia Geng, Yin Fang, Jeff Pan, Ningyu Zhang, Wen Zhang

초록
시각 질문 응답(VQA)은 시각적 개념과 언어 의미를 이해하는 능력이 필요하며, 이는 외부 지식의 활용에 의존한다. 기존의 대부분의 방법들은 사전 학습된 언어 모델과/또는 비구조화된 텍스트를 활용하지만, 이러한 자원에 포함된 지식은 종종 불완전하고 노이즈가 많다. 일부 다른 방법들은 구조화된 지식이 풍부한 지식 그래프(KG)를 선호하지만, 관련 연구는 여전히 초기 단계에 머물러 있다. 본 논문에서는 지식 기반 VQA 방법으로서 후기 지식-텍스트 주입(Late Knowledge-to-text Injection)을 제안한다. 외부 지식 그래프(KG)를 효과적으로 통합하기 위해, 삼중항(triples)을 텍스트 형식으로 변환하고, 지식 융합을 위한 후기 주입 메커니즘을 제안한다. 마지막으로, 효과적인 인코더-디코더 아키텍처를 기반으로 VQA를 텍스트 생성 과제로 재정의하여 OKVQA 데이터셋에서 최신 기준(SOTA) 성능을 달성한다.