12일 전

기반 Transformer 아키텍처를 활용한 문서 이해 방법

{William Hsu, Huichen Yang}
초록

문서 레이아웃 이해(Document Layout Understanding, DLU)라는 과제를 위해 전자적 흐름 기반의 트랜스포머 기반 프레임워크인 TRDLU를 제안한다. DLU는 문서 구조를 자동으로 이해하는 데 있어 핵심적인 과제이며, 다양한 형식의 문서에서 콘텐츠 박스를 정확히 탐지하고 의미 있는 클래스로 분류하는 것은 여전히 열린 도전 과제이다. 최근 트랜스포머 기반의 탐지 신경망은 기존의 컨볼루션 기반 방법에 비해 객체 탐지 분야에서 뛰어난 성능을 보여주고 있다. 본 논문에서는 DLU를 탐지 과제로 간주하고, 트랜스포머 기반의 비전 백본과 트랜스포머 인코더-디코더 아키텍처를 통합한 탐지 파이프라인으로 구성된 TRDLU를 제안한다. TRDLU는 단순히 시각적 특징에 기반한 프레임워크이지만, 멀티모달 특징 기반 모델보다 더 뛰어난 성능을 달성하였다. 저희 지식에 따르면, 이는 DLU 과제에 완전히 트랜스포머 기반의 프레임워크를 적용한 최초의 연구이다. 우리는 TRDLU를 세 가지 서로 다른 DLU 벤치마크 데이터셋에서 평가하였으며, 각 데이터셋은 강력한 기준 모델을 포함하고 있다. TRDLU는 모든 데이터셋에서 현재 최고 성능을 기록하는 방법들을 능가하였다.

기반 Transformer 아키텍처를 활용한 문서 이해 방법 | 최신 연구 논문 | HyperAI초신경