HyperAI

要約

これまでの修辞構造理論（RST）解析手法の多くは、ニューラルネットワークを含む教師あり学習に基づいており、十分な規模と品質の注釈付きコーパスを必要としている。しかし、英語におけるRST解析のベンチマークとして用いられるRSTディスコースツリーベンク（RST-DT）は、RST木の注釈作業が高コストであるため、規模が小さい。大規模な注釈付き学習データの不足は、特に関係ラベル付けにおいて性能の低下を引き起こす。そこで本研究では、銀データ（silver data）——すなわち自動的に注釈されたデータ——を活用することで、ニューラルRST解析モデルの性能向上を図る手法を提案する。我々は、最先端のRST解析器を用いて無注釈コーパスから大規模な銀データを生成した。高品質な銀データを得るため、複数のRST解析器によって構築されたドキュメントのRST木から、一致する部分木（agreement subtrees）を抽出した。その後、得られた銀データでニューラルRST解析器を事前学習し、さらにRST-DTで微調整した。実験結果によると、本手法は核性（Nuclearity）および関係（Relation）のマイクロF1スコアにおいて、それぞれ75.0および63.2という最高値を達成した。さらに、従来の最先端手法と比較して、関係ラベル付けのスコアで3.0ポイントの顕著な向上を達成した。

ベンチマーク

ベンチマーク	方法論	指標
discourse-parsing-on-rst-dt	Top-down Span-based Parser with Silver Agreement Subtrees	RST-Parseval (Full): 61.8 RST-Parseval (Nuclearity): 74.7 RST-Parseval (Relation): 62.5 RST-Parseval (Span): 86.8
discourse-parsing-on-rst-dt	Top-down Span-based Parser with Silver Agreement Subtrees (ensemble)	RST-Parseval (Full): 62.6 RST-Parseval (Nuclearity): 75.0 RST-Parseval (Relation): 63.2 RST-Parseval (Span): 87.1

Silver Agreement Subtreesを用いたニューラルRST解析モデルの改善

{Masaaki Nagata Manabu Okumura Hidetaka Kamigaito Tsutomu Hirao Naoki Kobayashi}

要約

ベンチマーク

AI で AI を構築

Hyper Newsletters

Command Palette

Silver Agreement Subtreesを用いたニューラルRST解析モデルの改善

{Masaaki Nagata Manabu Okumura Hidetaka Kamigaito Tsutomu Hirao Naoki Kobayashi}

要約

ベンチマーク

AI で AI を構築

Hyper Newsletters