
사용자 의도 분류는 정보 검색 분야에서 중요한 과제이다. 본 연구에서는 사용자 의도에 대한 개선된 분류 체계를 제안한다. 널리 사용되는 탐색형, 거래형, 정보형 쿼리 간의 구분을 기초로 하여, 정보형 쿼리에 대해 세 가지 하위 유형—수행형(instrumental), 사실형(factual), 회피형(abstain)—을 식별하였다. 이로 인해 도출된 사용자 쿼리 분류는 보다 세밀한 수준에 이르며, 레이블러 간 일관성도 매우 높으며, 효과적인 자동 분류 시스템의 기반이 될 수 있다. 새로 도입된 분류 항목들은 검색 시스템이 처리할 수 있는 쿼리 유형을 구분하는 데 도움을 주며, 예를 들어 결과 순위 매기기에서 다양한 유형의 결과에 우선순위를 부여하는 데 활용될 수 있다. 본 연구에서는 Snorkel 기반의 약한 감독(weak supervision) 방법을 사용하여 새로운 사용자 의도 분류 체계에 따라 ORCAS 데이터셋을 레이블링하였다. 기존의 히ュ리스틱 및 키워드를 활용하여 의도 분류를 예측하기 위한 규칙을 구성하였다. 이후 다양한 기계학습 모델을 활용한 실험을 수행하였으며, 약한 감독 단계에서 생성한 레이블을 학습 데이터로 사용하였다. 그러나 Snorkel이 생성한 결과는 비교 대상 모델들에 비해 성능이 떨어지지 않으며, 최신 기술 수준(state-of-the-art)에 해당함을 확인하였다. Snorkel과 같은 규칙 기반 접근 방식의 장점은 실제 시스템 내에서 모든 사용자 쿼리에 대해 의도 분류를 효율적으로 수행할 수 있다는 점이다. 본 논문과 함께 공개된 자원은 ORCAS-I 데이터셋으로, 웹 쿼리의 클릭 기반 데이터셋인 ORCAS의 레이블링된 버전이며, 1,000만 개의 고유 쿼리에 대해 총 1,800만 개의 연결 정보를 제공한다.