
要約
テキストディスコース解析は、自然言語における情報の流れと議論構造の理解において重要な役割を果たし、下流タスクに有益である。しかし、これまでの研究ではRSTディスコース解析の性能が大幅に向上したにもかかわらず、実際の使用例には容易に適用できないという問題がある:(1) EDUセグメンテーションが既存の大半のツリーパースィングフレームワークに統合されていないため、新規データに対してこれらのモデルを適用することが単純ではない。(2) ほとんどのパーサーは英語のみで開発されているため、多言語環境での使用が困難である。(3) 単一ドメインのツリバンクから学習されたパーサーは、ドメイン外の入力に対して十分な汎化性能を示さない。本研究では、文書レベルの多言語RSTディスコース解析フレームワークを提案する。このフレームワークはEDUセグメンテーションとディスコースツリーパースィングを統合して行う。さらに、クロストランスレーション拡張戦略を提案し、フレームワークが多言語解析をサポートし、ドメイン間での汎化性能を向上させる。実験結果は、我々のモデルがすべてのサブタスクにおいて文書レベルの多言語RSTディスコース解析で最先端の性能を達成していることを示している。注:- RST (Rhetorical Structure Theory):修辞構造理論- EDU (Elementary Discourse Unit):基本的なディスコース単位- Treebank:ツリバンク(コーパスの一形態)