2ヶ月前
大規模な対話解離コーパス
Jonathan K. Kummerfeld; Sai R. Gouravajhala; Joseph Peper; Vignesh Athreya; Chulaka Gunasekara; Jatin Ganhotra; Siva Sankalp Patel; Lazaros Polymenakos; Walter S. Lasecki

要約
単一のメッセージストリームに混在した会話を分離することは困難な課題であり、大規模な手動アノテーションデータセットの不足がその難易度をさらに高めています。私たちは、会話を分離し、内部の会話構造を定義するための返信構造グラフで手動アノテーションされた77,563件のメッセージからなる新しいデータセットを作成しました。このデータセットは、これまで公開されたすべてのデータセットを合わせたものよりも16倍大きく、アノテーションの不一致に対する裁定を含む最初のものであり、またコンテキストを含む最初のものです。私たちはこのデータを使用して先行研究を見直し、特に広く使用されている対話コーパスにおいて80%の会話がメッセージが欠落しているか、または余分なメッセージを含んでいることを発見しました。手動アノテーションされた私たちのデータは、会話分離のために堅牢なデータ駆動型手法を開発する機会を提供しており、これにより対話研究が進展することが期待されます。