2ヶ月前
大規模言語モデルを使用することで、RSTディスコース解析において有意な成功を収めることは可能でしょうか?
Aru Maekawa; Tsutomu Hirao; Hidetaka Kamigaito; Manabu Okumura

要約
最近、数十億のパラメータを持つデコーダーのみの事前学習大規模言語モデル(LLMs)が、自然言語処理(NLP)のさまざまなタスクに大きな影響を与えています。エンコーダーのみやエンコーダー-デコーダー型の事前学習言語モデルはすでにディスコース解析において効果を示していますが、LLMsがこのタスクでどの程度の性能を発揮できるかについては未だ研究課題となっています。したがって、本論文では、このようなLLMsが修辞構造理論(RST)に基づくディスコース解析にどれほど有益であるかを調査します。ここでは、基本的なトップダウンおよびボトムアップ戦略の解析プロセスをプロンプトに変換し、LLMsが扱えるようにしています。私たちはLlama 2を使用し、パラメータ数が少ないQLoRAで微調整を行いました。RST-DT、Instr-DT、GUMコーパスという3つのベンチマークデータセットでの実験結果は、700億パラメータを持つLlama 2がボトムアップ戦略で最先端(SOTA)の結果を得たことを示しており、その差異は有意でした。さらに、私たちの解析器はRST-DTでの評価でも汎化能力を示し、GUMコーパスで訓練されたにもかかわらず、RST-DTで訓練された既存の解析器と同様の性能を達成しました。