
エンティティマッチングは、2つのエンティティ記述が同じ実世界のエンティティを指しているかどうかを決定するタスクである。エンティティマッチングは、ほとんどのデータ統合パイプラインにおいて中心的なステップである。最新の多くのエンティティマッチング手法は、BERTやRoBERTaなどの事前学習済み言語モデル(PLMs)に依存している。これらのモデルにおけるエンティティマッチングの2つの主要な欠点は、(i) タスク固有の大量の学習データが必要であることと (ii) ファインチューニングされたモデルが分布外のエンティティに対して堅牢でないことである。本論文では、これらのPLMベースのマッチャーに対するよりタスク非特異的な学習データへの依存度が低く、より堅牢な代替手段として生成型大規模言語モデル(LLMs)を使用することを調査する。研究では、ホスト型およびオープンソースのLLMを取り扱い、ローカルで実行可能なものを対象とする。これらのモデルをゼロショットシナリオとタスク固有の学習データが利用可能なシナリオで評価し、異なるプロンプト設計とモデルのプロンプト感度について比較する。単一の最適なプロンプトは存在せず、各モデル/データセット組み合わせに対してプロンプトを調整する必要があることを示す。さらに (i) コンテクスト内デモンストレーションの選択、(ii) マッチング規則の生成、(iii) 同じ学習データプールを使用してLLMをファインチューニングすることについて調査する。実験結果から、最高性能を持つLLMは数千例を使ってファインチューニングされたPLMと同等またはそれ以上の性能を発揮するために0または少数の学習例しか必要ないことがわかった。また、LLMベースのマッチャーは未見のエン蒂ティに対してより高い堅牢性を示すことも確認した。GPT-4が構造化された説明を生成し、誤った決定の説明を分析することで潜在的なマッチングエラー的原因を自動的に特定できることを示す。このモデルは識別されたエラークラスに対する意味のあるテキスト記述を生成できることも示しており、これによりデータエンジニアがエンティティマッチングパイプラインを改善するのに役立つ可能性がある。注:「未見」は一般的な日本語表現ではなく、「 unseen 」という英語表現そのままに近い訳となっています。「未見」は「未知」や「未経験」といった表現でも代用できますが、「未見」の方が原文に忠実です。修正版:また、LLMベースのマッチャーは未知のエン蒂ティに対してより高い堅牢性を示すことも確認した。GPT-4が構造化された説明を生成し、誤った決定の説明を分析することで潜在的なマッチングエラー的原因を自動的に特定できることが示された。このモデルは識別されたエラークラスに対する意味のあるテキスト記述も生成できることから、データエンジニアがエンティティマッチングパイプラインを改善するのに役立つ可能性がある。最終版:また、LLMベースのマッチャーは未知のエンティティに対してより高い堅牢性を示すことも確認した。GPT-4は構造化された説明を生成し、誤った決定の説明を通じて潜在的なマッチングエラー原因を自動的に特定できることが示された。さらにこのモデルは識別されたエラークラスに対する意味のあるテキスト記述も生成できることから、データエンジニアがエンティティマッチングパイプラインを改善するのに役立つ可能性があることが明らかになった。