17일 전

LaKo: 지식 기반 시각 질문 응답을 위한 후기 지식-텍스트 주입 기법

Zhuo Chen, Yufeng Huang, Jiaoyan Chen, Yuxia Geng, Yin Fang, Jeff Pan, Ningyu Zhang, Wen Zhang
LaKo: 지식 기반 시각 질문 응답을 위한 후기 지식-텍스트 주입 기법
초록

시각 질문 응답(VQA)은 시각적 개념과 언어 의미를 이해하는 능력이 필요하며, 이는 외부 지식의 활용에 의존한다. 기존의 대부분의 방법들은 사전 학습된 언어 모델과/또는 비구조화된 텍스트를 활용하지만, 이러한 자원에 포함된 지식은 종종 불완전하고 노이즈가 많다. 일부 다른 방법들은 구조화된 지식이 풍부한 지식 그래프(KG)를 선호하지만, 관련 연구는 여전히 초기 단계에 머물러 있다. 본 논문에서는 지식 기반 VQA 방법으로서 후기 지식-텍스트 주입(Late Knowledge-to-text Injection)을 제안한다. 외부 지식 그래프(KG)를 효과적으로 통합하기 위해, 삼중항(triples)을 텍스트 형식으로 변환하고, 지식 융합을 위한 후기 주입 메커니즘을 제안한다. 마지막으로, 효과적인 인코더-디코더 아키텍처를 기반으로 VQA를 텍스트 생성 과제로 재정의하여 OKVQA 데이터셋에서 최신 기준(SOTA) 성능을 달성한다.