2달 전

고성능 트랜스포머를 이용한 표 구조 인식을 위한 초기 컨볼루션의 필요성

ShengYun Peng; Seongmin Lee; Xiaojing Wang; Rajarajeswari Balasubramaniyan; Duen Horng Chau
고성능 트랜스포머를 이용한 표 구조 인식을 위한 초기 컨볼루션의 필요성
초록

표 구조 인식(Table Structure Recognition, TSR)은 표 이미지를 기계가 읽을 수 있는 형식으로 변환하는 것을 목표로 하며, 시각 인코더는 이미지 특성을 추출하고 텍스트 디코더는 표를 나타내는 토큰을 생성합니다. 기존 접근 방식에서는 시각 인코더에 클래식 컨볼루션 신경망(Convolutional Neural Network, CNN) 백본을 사용하고 텍스트 디코더에는 트랜스포머를 사용합니다. 그러나 이 하이브리드 CNN-트랜스포머 아키텍처는 전체 모델 매개변수의 약 절반을 차지하는 복잡한 시각 인코더를 도입하여, 학습과 추론 속도를 크게 감소시키고 TSR에서 자기 지도 학습(self-supervised learning)의 잠재력을 저해합니다.본 연구에서는 표현력(power of expression)을 포기하지 않으면서 경량화된 시각 인코더를 설계하였습니다. 우리는 컨볼루션 스템(convolutional stem)이 훨씬 더 간단한 모델로 클래식 CNN 백본의 성능과 일치할 수 있음을 발견하였습니다. 컨볼루션 스템은 고성능 TSR을 위한 두 가지 중요한 요인 사이에서 최적의 균형을 이루는데, 이는 더 넓은 수용 영역(receptive field, RF) 비율과 더 긴 시퀀스 길이입니다. 이를 통해 적절한 부분의 표를 '보'면서 후속 트랜스포머가 충분한 문맥 길이 내에서 복잡한 표 구조를 '저장'할 수 있게 됩니다.우리는 재현 가능한 축소 연구(ablation studies)를 수행하였으며, 코드를 오픈 소스로 공개하여(https://github.com/poloclub/tsr-convstem) 투명성을 높이고 혁신을 촉진하며 공정한 비교를 용이하게 하였습니다. 표는 표현 학습(representation learning)에서 유망한 모달리티(modality)이므로 본 연구는 해당 분야에서 중요한 역할을 할 것입니다.

고성능 트랜스포머를 이용한 표 구조 인식을 위한 초기 컨볼루션의 필요성 | 최신 연구 논문 | HyperAI초신경