12일 전
보기, 주의 집중하고 구문 분석하기: 수필 수학식 인식을 위한 엔드투엔드 신경망 기반 접근법
{LiRong Dai, Si Wei, Jinshui Hu, Yulong Hu, Dan Liu, Shiliang Zhang, Jun Du, Jianshu Zhang}
초록
손으로 쓴 수학식(HME)의 기계 인식은 손글씨 기호의 모호성과 수학식의 2차원 구조로 인해 도전적인 과제이다. 최근 딥러닝 분야의 연구에 영감을 받아, 본 연구는 신경망 기반의 새로운 엔드투엔드 접근법인 'Watch, Attend and Parse(WAP)'을 제안한다. 이 모델은 수학식의 2차원 레이아웃을 학습하여 LaTeX 형식의 1차원 문자열로 출력하는 능력을 갖추고 있다. 기존의 전통적인 방법과는 달리, 본 모델은 기호 분할(segmentation)에 기인하는 문제를 회피하며, 미리 정의된 수식 문법(grammar)이 필요하지도 않다. 동시에, 기호 인식과 구조 분석 문제는 각각 '워처(watcher)'와 '파서(parser)'를 통해 별도로 처리한다. 워처는 HME 이미지를 입력으로 받아들이는 합성곱 신경망(CNN) 인코더로 구성되며, 파서는 어텐션 메커니즘을 갖춘 순환 신경망(RNN) 디코더로 구성되어 LaTeX 시퀀스를 생성한다. 더불어, 입력 수학식과 출력 LaTeX 시퀀스 간의 대응 관계는 어텐션 메커니즘을 통해 자동으로 학습된다. 제안된 방법은 CROHME 국제 경연대회에서 공개한 벤치마크 데이터셋을 기반으로 검증되었으며, 공식 트레이닝 데이터셋을 사용하여 WAP는 기존 최고 성능 방법을 크게 상회하며, CROHME 2014에서는 46.55%의 수식 인식 정확도, CROHME 2016에서는 44.55%의 정확도를 기록하였다.