11일 전

시각적 워드 그리드: 다모달 접근을 이용한 스캔 문서에서의 정보 추출

Mohamed Kerroumi, Othmane Sayem, Aymen Shabou

초록

스캔된 문서의 표현을 위한 새로운 접근법을 제안하며, 이는 필드 추출 작업을 수행하기 위한 것임. 본 방법은 텍스트, 시각적 정보 및 레이아웃 정보를 동시에 인코딩할 수 있도록 3축 텐서를 활용하여 세그멘테이션 모델의 입력으로 사용한다. 최근의 Chargrid 및 Wordgrid \cite{chargrid} 모델들을 여러 방면에서 개선하였으며, 먼저 시각 모달리티를 고려함으로써 성능을 향상시켰고, 작은 데이터셋에 대한 강건성을 높이면서도 추론 시간은 낮은 수준으로 유지하였다. 제안하는 방법은 공개 및 사적 문서 이미지 데이터셋에서 테스트되었으며, 최근의 최상위 기법들에 비해 더 높은 성능을 보였다.