2달 전

대규모 대화 분리 코퍼스

Jonathan K. Kummerfeld; Sai R. Gouravajhala; Joseph Peper; Vignesh Athreya; Chulaka Gunasekara; Jatin Ganhotra; Siva Sankalp Patel; Lazaros Polymenakos; Walter S. Lasecki
대규모 대화 분리 코퍼스
초록

단일 메시지 스트림에서 혼합된 대화를 분리하는 것은 어려운 작업이며, 이는 대규모 수작업으로 주석이 달린 데이터셋의 부족으로 인해 더욱 어려워집니다. 우리는 대화를 분리하고 내부 대화 구조를 정의하는 응답 구조 그래프로 수작업으로 주석이 달린 77,563개의 메시지를 포함하는 새로운 데이터셋을 생성했습니다. 우리의 데이터셋은 기존에 발표된 모든 데이터셋의 총합보다 16배 크며, 주석 불일치에 대한 심사가 포함된 첫 번째 데이터셋이며, 문맥이 포함된 첫 번째 데이터셋입니다. 우리는 이 데이터를 사용하여 이전 연구를 재검토하였으며, 특히 널리 사용되는 대화 코퍼스에서 80%의 대화가 메시지가 누락되었거나 추가된 메시지를 포함하고 있다는 것을 발견했습니다. 우리의 수작업으로 주석이 달린 데이터는 대화 분리를 위한 견고한 데이터 기반 방법론 개발의 기회를 제공하며, 이는 대화 연구를 발전시키는데 도움이 될 것입니다.

대규모 대화 분리 코퍼스 | 최신 연구 논문 | HyperAI초신경