17일 전
효율적인 계층적 정보 스레딩: 네트워크 커뮤니티 탐지를 활용한 방법
{Iadh Ounis, Graham McDonald, Hitarth Narvala}
초록
매일 온라인에서 생성되는 정보의 양이 급격히 증가함에 따라(예: 뉴스 기사), 사건이 시간이 지남에 따라 변화함에 따라 관련 정보를 자동으로 식별할 필요성이 커지고 있다(즉, 정보 스레드). 본 연구에서는 일련의 사건이나 논의에 대해 변화하는 다양한 정보 간의 계층적 관계를 쉽게 해석할 수 있도록 하는, 일관성 있는 계층적 정보 스레드를 식별하는 새로운 비지도 접근법인 HINT(Hierarchical Information Thread detection)를 제안한다. 특히 HINT는 문서 간의 시간적 관련성과 5W1H 질문(누가, 무엇이, 어디서, 언제, 왜, 어떻게)에 대한 답변을 기반으로 문서 간의 계층적 연결을 효과적으로 식별하기 위해 네트워크 커뮤니티 탐지 기반의 확장 가능한 아키텍처를 도입한다. NewSHead 데이터셋을 대상으로 한 실험 결과, HINT는 기존 최고 수준의 접근법들에 비해 식별된 스레드의 품질에서 뚜렷한 우수성을 보였다. 또한 사용자 연구를 통해 제안한 네트워크 기반의 계층적 스레드가 클러스터 기반 순차적 스레드보다 사용자들에 의해 유의미하게(통계적 유의성 p<0.05) 더 선호됨을 확인하였다.