5W1H 질문과 시제적 관계를 활용한 시간적 및 일관성 있는 정보 흐름 식별
매일 온라인에서 생성되는 기사의 막대한 양으로 인해, 온라인 플랫폼(예: 뉴스 기관)이 이벤트, 활동 또는 토론에 관한 정보를 사용자에게 쉽게 이해할 수 있는 형식으로 제공하는 것은 어려운 과제이다. 따라서 대규모 비구조화 문서 컬렉션에서 사건에 관한 관련성 있고 시간 순서가 유지된 정보(즉, 정보 스레드)를 자동으로 추출할 수 있는 방법이 필요하다. 본 연구에서는 대규모 문서 컬렉션 내에서 시계열적이고 일관성 있는 정보 스레드를 생성하기 위해, 새로운 비지도 계층적 응집 군집화(Hierarchical Agglomerative Clustering, HAC) 기반의 정보 스레딩 접근법을 제안한다. 기존의 주제 탐지 및 추적(Topic Detection and Tracking) 또는 이벤트 스레딩과 같이 중요한 키워드 및/또는 엔티티를 기준으로 정보를 그룹화하는 작업들과 달리, 본 연구에서 제안하는 방법은 사건에 대한 시간적 관계와 다양한 정보(누가, 무엇을, 왜, 어디서, 언제, 어떻게(5W1H 질문))를 기반으로 스레드를 식별한다. 특히, 본 연구에서 제안하는 접근법은 문서 간 시간 감쇠(time decay)와 함께 5W1H 질문에 대한 추출된 답변을 활용하여 HAC에 맞춤형 유사도 함수를 도입한다. 제안된 HAC 5W1H 정보 스레딩 방법은 두 개의 대규모 전문가 주석이 달린 뉴스 기사 컬렉션, 즉 NewSHead(112,000건 이상) 및 Multi-News(32,000건 이상)를 대상으로 평가되었다. 실험 결과, 기존 최고 수준의 기법들과 비교했을 때, HAC 5W1H는 생성되는 스레드의 수와 품질 측면에서 두드러진 개선 효과를 보였다. 특히, 더 큰 NewSHead 컬렉션에서 기존 최고 성능 기준선 대비 스레드 수는 100.98% 증가했으며, 정규화된 상호정보량(Normalised Mutual Information)은 +213.39% 향상되었다. 또한 사용자 연구를 통해 제안된 HAC 5W1H 정보 스레딩 방법이 기존 최고 수준의 기법들에 비해 일관성, 다양성, 시계열 정확성 측면에서 유의미하게(통계적 유의성 p < 0.05) 더 선호됨을 확인하였다.