17일 전

이미지에서 마크업 생성을 위한 트리 구조 디코더

{Li-Rong Dai, Yi-Zhe Song, Yongxin Yang, Si Wei, Jun Du, Jianshu Zhang}
초록

최근의 인코더-디코더 접근 방식은 일반적으로 이미지를 시리얼화된 문자열로 변환하여 이미지에서 마크업을 생성하는 데 문자열 디코더를 활용한다. 그러나 트리 구조를 가지는 표현적 마크업의 경우, 문자열 표현은 구조적 복잡성을 효과적으로 다루기 어렵다. 본 연구에서는 간단한 예제 문제들을 통해 문자열 디코더가 구조적 복잡성이 증가함에 따라 트리 구조를 복원하는 데 큰 어려움을 겪음을 처음으로 입증한다. 이를 바탕으로, 트리 구조의 마크업을 특별히 생성하기 위해 설계된 트리 구조 디코더를 제안한다. 제안한 디코더는 순차적으로 동작하며, 각 단계에서 자식 노드와 그 부모 노드를 동시에 생성하여 부분 트리를 형성한다. 이 부분 트리는 반복적으로 활용되어 최종적인 트리 구조를 구성한다. 본 트리 디코더의 성공을 가능하게 하는 핵심 요소는 두 가지이다. 첫째, 트리의 부모-자식 관계를 엄격히 준수하며, 둘째, 선형 문자열이 아닌 명시적인 트리 구조를 출력한다. 수식 인식 및 화학식 인식 두 가지 작업에 대한 평가 결과, 제안된 트리 디코더는 강력한 문자열 디코더 기준 모델보다 크게 우수한 성능을 보였다.

이미지에서 마크업 생성을 위한 트리 구조 디코더 | 최신 연구 논문 | HyperAI초신경