
초록
다중 모드 학습의 등장은 문서 AI 분야에서 상당한 개선을 가져왔습니다. 이제 문서는 텍스트 정보와 시각적 정보를 모두 포함하는 다중 모드 엔티티로 취급되어 후속 분석에 활용됩니다. 그러나 이 분야의 연구들은 종종 텍스트 측면에 초점을 맞추고, 시각적 공간을 보조 정보로 사용합니다. 일부 연구에서는 순수한 시각 기반 기술을 이용해 문서 이미지 이해를 탐구했지만, 추론 단계에서 OCR(광학 문자 인식)으로 식별된 텍스트가 필요하거나, 학습 절차에서 텍스트와 일치하지 않는 경우가 많습니다. 따라서, 우리는 문서 이미지 내의 텍스트 정보를 활용하여 시각적 작업의 성능을 개선하기 위해 특별히 설계된 새로운 이미지-텍스트 정렬 기술을 제시합니다. 이 기술로 훈련된 우리의 문서 인코더 모델 DoPTA는 추론 단계에서 OCR이 필요하지 않으면서 다양한 문서 이미지 이해 작업에서 강력한 성능을 보여줍니다. 또한 보조 재구성 목표와 결합하면 DoPTA는 더 큰 모델들보다 일관되게 우수한 성능을 발휘하면서도 사전 학습에 필요한 컴퓨팅 자원이 현저히 적습니다. DoPTA는 또한 도전적인 문서 시각 분석 벤치마크인 D4LA와 FUNSD에서 새로운 최고 수준의 결과를 설정하였습니다.