VQA 모델의 읽기 능력 향상

연구 결과 시각 장애인 사용자가 주변 환경의 이미지에 대해 가장 많이 묻는 질문 중 하나가 이미지 내의 텍스트를 읽는 것임이 밝혀졌습니다. 그러나 현재의 시각질문응답(VQA) 모델들은 텍스트를 읽을 수 없습니다! 본 논문은 이 문제 해결을 위한 첫걸음을 내딛습니다. 먼저, 이 중요한 문제에 대한 연구 진전을 돕기 위해 새로운 "TextVQA" 데이터셋을 소개합니다. 기존 데이터셋들은 텍스트 관련 질문의 비율이 낮거나(예: VQA 데이터셋) 규모가 너무 작아(예: VizWiz 데이터셋) 이 문제를 충분히 다루지 못했습니다. TextVQA는 28,408개의 이미지에서 텍스트 추론이 필요한 45,336개의 질문을 포함하고 있습니다. 둘째, 우리는 이미지 내의 텍스트를 읽고, 그 텍스트를 이미지와 질문의 맥락에서 추론하여 답변을 예측하는 새로운 모델 아키텍처를 제안합니다. 이 답변은 텍스트와 이미지를 바탕으로 한 추론일 수도 있고, 이미지에서 발견된 문자열로 구성될 수도 있습니다. 따라서 우리의 접근 방식을 '보기, 읽기, 추론 및 답변(Look, Read, Reason & Answer, LoRRA)'이라고 명명하였습니다. 실험 결과 LoRRA가 우리의 TextVQA 데이터셋에서 기존 최신 VQA 모델들보다 우수한 성능을 보임을 확인하였습니다. 또한 TextVQA에서는 인간 성능과 기계 성능 간의 차이가 VQA 2.0보다 크게 나타나는데, 이는 TextVQA가 VQA 2.0과 상보적인 방향으로 연구 진전을 측정하기에 적합함을 시사합니다.