HyperAIHyperAI

Command Palette

Search for a command to run...

大規模な対話解離コーパス

Jonathan K. Kummerfeld Sai R. Gouravajhala Joseph J. Peper Vignesh Athreya Chulaka Gunasekara Jatin Gahotra Siva Sankalp Patel Lazaros Polymenakos Walter S. Lasecki

概要

単一のメッセージストリームに混在した会話を分離することは困難な課題であり、大規模な手動アノテーションデータセットの不足がその難易度をさらに高めています。私たちは、会話を分離し、内部の会話構造を定義するための返信構造グラフで手動アノテーションされた77,563件のメッセージからなる新しいデータセットを作成しました。このデータセットは、これまで公開されたすべてのデータセットを合わせたものよりも16倍大きく、アノテーションの不一致に対する裁定を含む最初のものであり、またコンテキストを含む最初のものです。私たちはこのデータを使用して先行研究を見直し、特に広く使用されている対話コーパスにおいて80%の会話がメッセージが欠落しているか、または余分なメッセージを含んでいることを発見しました。手動アノテーションされた私たちのデータは、会話分離のために堅牢なデータ駆動型手法を開発する機会を提供しており、これにより対話研究が進展することが期待されます。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
大規模な対話解離コーパス | 記事 | HyperAI超神経