TAG: 텍스트 인식 시각적 질문-답변 생성을 통한 Text-VQA 향상

Text-VQA는 이미지 내의 텍스트 신호를 이해해야 하는 질문에 답하는 것을 목표로 합니다. 기존의 Text-VQA 방법들이 크게 발전했음에도 불구하고, 그 성능은 충분하지 않은 인간이 라벨링한 질문-답변(QA) 쌍으로 인해 손상됩니다. 그러나 우리는 일반적으로 기존 데이터셋에서 장면 텍스트가 충분히 활용되지 않고 있다는 점을 관찰하였습니다. 각 이미지 내의 텍스트 중 단지 작은 부분만이 주석화된 QA 활동에 참여합니다. 이로 인해 유용한 정보가 큰 폭으로 낭비되고 있습니다. 이러한 부족점을 해결하기 위해, 우리는 각 이미지의 장면 컨텍스트에서 존재하는 풍부한 텍스트를 명시적으로 활용하여 고품질이고 다양한 QA 쌍을 생성하는 새로운 방법을 개발하였습니다. 구체적으로, 우리는 TAG라는 텍스트 인식 시각적 질문-답변 생성 아키텍처를 제안합니다. 이 아키텍처는 멀티모달 트랜스포머를 사용하여 의미 있고 정확한 QA 샘플을 생성하도록 학습됩니다. TAG는 미충분히 활용된 장면 텍스트 정보를 활용하고, 생성된 QA 쌍을 초기 학습 데이터와 결합하여 Text-VQA 모델들의 장면 이해 능력을 강화합니다. 두 가지 잘 알려진 Text-VQA 벤치마크 (TextVQA 및 ST-VQA)에서 수행된 광범위한 실험 결과는 우리의 제안된 TAG가 추가적인 라벨링 작업 없이 학습 데이터를 확대하여 Text-VQA 성능을 개선하는데 효과적임을 보여줍니다. 또한, 우리 모델은 추가 대규모 데이터로 사전 학습된 최신 접근 방식들을 능가합니다. 코드는 https://github.com/HenryJunW/TAG에서 확인할 수 있습니다.