17일 전
SciCap: 과학적 그림에 대한 캡션 생성
Ting-Yao Hsu, C. Lee Giles, Ting-Hao ', Kenneth', Huang

초록
연구자들은 과학 논문에서 풍부하고 복잡한 정보를 전달하기 위해 그림을 활용한다. 이러한 그림의 제목(캡션)은 효과적인 메시지 전달에 핵심적인 역할을 한다. 그러나 과학 논문에서 흔히 저품질의 그림 캡션들이 나타나며, 이는 이해도를 저하시킬 수 있다. 본 논문에서는 과학적 그림에 대해 정보가 풍부하고 고품질의 캡션을 자동으로 생성할 수 있는 엔드투엔드 신경망 프레임워크를 제안한다. 이를 위해 2010년부터 2020년까지 출판된 컴퓨터 과학 분야 arXiv 논문을 기반으로 한 대규모 그림-캡션 데이터셋인 SCICAP을 제안한다. 그림 유형 분류, 하위 그림 식별, 텍스트 정규화, 캡션 텍스트 선택 등의 전처리 과정을 거친 후, SCICAP은 29만 개 이상의 논문에서 추출된 200만 건 이상의 그림을 포함하게 되었다. 이후 주로 사용되는 그림 유형(19.2%)인 그래프 플롯에 대한 캡션 생성을 위한 기준 모델을 구축하였다. 실험 결과는 과학적 그림 캡션 생성의 가능성을 보여주었지만, 동시에 높은 수준의 도전 과제 또한 드러났다.