초록
질문 분류는 자연어로 표현된 주어진 질문에 대해 답변 문장의 실체 유형을 예측하는 작업으로, 정확한 답변을 찾거나 구성하는 데 중요한 역할을 하며, 따라서 자동 질문 응답 시스템의 품질 향상에 기여한다. 기존 연구에서는 질문에서 어휘적, 문법적, 의미적 특징들을 자동으로 추출하여 분류에 활용하였다. 그러나 이러한 모든 특징을 통합하는 방식이 모든 유형의 질문에 항상 최적의 결과를 제공하는 것은 아니다. 기존 연구와 달리, 본 논문은 다양한 질문 유형에 적합한 효율적인 특징을 어떻게 추출하고 선택할 것인지에 초점을 맞추고 있다. 먼저, 다양한 질문 유형에 적합한 특징을 결정하기 위해 특징 선택 알고리즘을 활용하는 방법을 제안한다. 둘째, 질문 패턴을 기반으로 한 새로운 유형의 특징을 설계한다. 제안한 방법은 TREC라는 벤치마크 데이터셋을 이용하여 지지 벡터 기계(Support Vector Machine, SVM)를 분류 알고리즘으로 사용하여 검증하였다. 실험 결과, 대분류 데이터셋과 세분화된 데이터셋에서 각각 95.2%, 91.6%의 정확도를 달성하였으며, 이는 기존 연구에 비해 훨씬 우수한 성능을 보였다.