Command Palette
Search for a command to run...
{Masaaki Nagata Manabu Okumura Hidetaka Kamigaito Tsutomu Hirao Naoki Kobayashi}

要約
これまでの修辞構造理論(RST)解析手法の多くは、ニューラルネットワークを含む教師あり学習に基づいており、十分な規模と品質の注釈付きコーパスを必要としている。しかし、英語におけるRST解析のベンチマークとして用いられるRSTディスコースツリーベンク(RST-DT)は、RST木の注釈作業が高コストであるため、規模が小さい。大規模な注釈付き学習データの不足は、特に関係ラベル付けにおいて性能の低下を引き起こす。そこで本研究では、銀データ(silver data)——すなわち自動的に注釈されたデータ——を活用することで、ニューラルRST解析モデルの性能向上を図る手法を提案する。我々は、最先端のRST解析器を用いて無注釈コーパスから大規模な銀データを生成した。高品質な銀データを得るため、複数のRST解析器によって構築されたドキュメントのRST木から、一致する部分木(agreement subtrees)を抽出した。その後、得られた銀データでニューラルRST解析器を事前学習し、さらにRST-DTで微調整した。実験結果によると、本手法は核性(Nuclearity)および関係(Relation)のマイクロF1スコアにおいて、それぞれ75.0および63.2という最高値を達成した。さらに、従来の最先端手法と比較して、関係ラベル付けのスコアで3.0ポイントの顕著な向上を達成した。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| discourse-parsing-on-rst-dt | Top-down Span-based Parser with Silver Agreement Subtrees | RST-Parseval (Full): 61.8 RST-Parseval (Nuclearity): 74.7 RST-Parseval (Relation): 62.5 RST-Parseval (Span): 86.8 |
| discourse-parsing-on-rst-dt | Top-down Span-based Parser with Silver Agreement Subtrees (ensemble) | RST-Parseval (Full): 62.6 RST-Parseval (Nuclearity): 75.0 RST-Parseval (Relation): 63.2 RST-Parseval (Span): 87.1 |