17日前
ViGGO:オープンドメイン会話におけるデータからテキスト生成のためのビデオゲームコーパス
Juraj Juraska, Kevin K. Bowden, Marilyn Walker

要約
自然言語生成(NLG)分野におけるディープラーニングの導入により、ニューラルモデルの学習に向けた小規模および相対的に大規模な並列コーパスが多数公開された。しかし、既存のデータからテキストを生成するためのコーパスは、主にタスク指向型対話システムを想定しており、多様性や汎用性に欠ける傾向がある。これらのコーパスは通常、クラウドソーシングによって収集されており、多くのノイズが残存した状態で利用されている。さらに、現在のニューラルNLGモデルは、大規模な学習データを十分に活用できていない。また、強力な汎化能力を持つため、生成される文はいずれもテンプレートに似た形態になりがちである。そこで本研究では、7,000件のサンプルから構成される新しいコーパスを提示する。本コーパスは以下の3点において特徴を持つ:(1)クラウドソーシングによる収集にもかかわらず、清浄なデータセットである;(2)9種類の汎用性が高く会話的な対話行動(dialogue act)タイプの発話が含まれており、オープンドメイン対話システムに適している;(3)対話システムにおいてこれまであまり検討されてこなかったビデオゲームを対象領域としており、豊かな会話の支援に極めて高い潜在能力を有している。