
초록
웹 래퍼는 웹 페이지로부터 구조화된 정보를 추출하는 시스템이다. 현재까지의 래퍼는 정보 추출을 시작하기 전에 특정 웹사이트 템플릿에 맞춰 사전에 적응되어야 한다. 본 연구에서는 기존에 접한 적이 없는 템플릿에서도 정보를 추출할 수 있는 래퍼를 학습하기 위해 합성곱 신경망(Convolutional Neural Networks, CNN)을 활용하는 새로운 방법을 제안한다. 따라서 본 래퍼는 특정 사이트에 특화된 초기화 과정이 필요 없으며, 단일 웹 페이지에서 정보를 추출할 수 있다. 또한 웹 페이지의 시각적 및 텍스트적 콘텐츠를 하나의 신경망에 통합적으로 인코딩할 수 있도록 하는 공간적 텍스트 인코딩 방법을 제안한다. 제품 정보 추출을 위한 초기 실험 결과는 매우 유망한 성과를 보였으며, 이 접근 방식이 일반화된, 사이트에 의존하지 않는 웹 래퍼 개발로 이어질 수 있음을 시사한다.