
초록
우리는 텐센트에서 실시간 뉴스 스트림에서 이벤트를 발견하고 온라인 방식으로 뉴스 스토리 구조를 진화시키는 뉴스 콘텐츠 조직 시스템을 구현한 경험을 설명합니다. 우리의 실제 시스템은 이전의 주제 탐지 및 추적(Topic Detection and Tracking, TDT) 연구와 이벤트 타임라인 또는 그래프 생성 연구와 달리 다음과 같은 독특한 요구사항이 있습니다: 1) 다양한 주제를 다루고 고도로 중복된 정보를 포함하는 대량의 긴 텍스트 문서에서 구별 가능한 이벤트를 정확하고 신속하게 추출해야 하며, 2) 기존에 형성된 스토리를 다시 구조화하지 않고 온라인 방식으로 이벤트 스토리의 구조를 개발해야 하므로 일관된 사용자 시청 경험을 보장할 수 있어야 합니다. 이러한 도전 과제 해결을 위해 우리는 Story Forest라는 방법론을 제안합니다. Story Forest는 스트리밍 문서를 자동으로 클러스터링하여 이벤트로 분류하며, 성장하는 트리를 통해 관련 이벤트를 연결하여 진화하는 스토리를 전달합니다. 우리는 60GB의 실제 중국어 뉴스 데이터를 기반으로 광범위한 평가를 수행하였으며, 우리의 아이디어는 언어에 종속적이지 않으므로 다른 언어로 쉽게 확장될 수 있다는 점을 상세한 사용자 경험 연구를 통해 입증하였습니다. 결과는 Story Forest가 여러 기존 알고리즘 프레임워크보다 인간 독자에게 매력적인 논리적 구조로 뉴스 텍스트를 정확히 식별하고 조직하는 우수한 능력을 보여줍니다.