
초록
전통적인 견해는 딥 러닝 모델이 이미 텍스트의 적절한 표현을 자동으로 학습하기 때문에, 수작업으로 만든 특징들이 불필요하다는 것이다. 본 연구에서는 이 주장을 검증하기 위해, 새로운 하이브리드 학습 접근법의 일부로 수작업 특징들을 활용하는 방법을 제안한다. 이 방법은 특징 오토인코더 손실 구성 요소를 통합한다. 우리는 이름체 인식(NER) 작업에서 이 방법을 평가하였으며, 품사, 단어 형태 및 가제터(gazetteers)와 같은 수작업 특징들을 포함함으로써 신경망 CRF 모델의 성능이 향상될 수 있음을 보여준다. CoNLL-2003 영어 공유 작업에서 $F_1$ 점수가 91.89를 기록하였으며, 이는 매우 경쟁력 있는 기준 모델들의 집합을 크게 능가하는 결과이다. 또한, 오토인코딩의 중요성을 입증하기 위한 축차적 제거(ablation) 연구를 제시하며, 오토인코더 구성 요소를 포함하면 학습 요구량을 60%로 줄일 수 있으며 동일한 예측 정확도를 유지할 수 있음을 보여준다.