17日前

リトリーバル・オーガナイズド・ジェネレーションを用いた関係抽出

Sefika Efeoglu, Adrian Paschke
リトリーバル・オーガナイズド・ジェネレーションを用いた関係抽出
要約

情報抽出(Information Extraction, IE)は、エンティティ抽出および関係抽出(Relation Extraction, RE)の手法を用いて、非構造化テキストデータを構造化形式に変換する変革的なプロセスである。この枠組みにおいて、二つのエンティティ間の関係を正確に特定することは極めて重要な役割を果たす。関係抽出には多様な手法が存在するが、それらの有効性はラベル付きデータの入手可能性および膨大な計算リソースに大きく依存している。こうした課題に対応するため、大規模言語モデル(Large Language Models, LLMs)が有望な解決策として注目されている。しかしながら、LLMsは自身の学習データに基づくため、誤った生成(ホールーシュレーション)を引き起こす可能性がある。この制約を克服するため、本研究では、リトリーブ・オーガメントド・ジェネレーション(Retrieved-Augmented Generation, RAG)を活用した関係抽出手法であるRAG4REを提案する。本手法は、関係抽出タスクの性能向上に向けた新たな道筋を提供する。本研究では、異なるLLMを用いてRAG4RE手法の有効性を評価した。TACRED、TACREV、Re-TACRED、およびSemEval REといった既存のベンチマークデータセットを活用することで、RAG4REの総合的な性能を体系的に検証した。特に、Flan T5、Llama2、Mistralといった代表的なLLMを用いた実験を行った。その結果、本手法は単にLLMに依拠する従来の関係抽出アプローチを上回る性能を示した。特にTACREDデータセットおよびその変種においてその優位性が顕著に認められた。さらに、TACREDおよびTACREVデータセットの両方において、従来の関係抽出手法と比較しても顕著な性能向上が得られ、本手法の有効性と自然言語処理分野における関係抽出タスクの進展に向けた潜在的価値が裏付けられた。