17日前

エンティティマッチング向けBERTの二目的微調整

{Christian Bizer, Ralph Peeters}
エンティティマッチング向けBERTの二目的微調整
要約

近年、データ提供者は、GTIN、ISBN、DUNS、ORCIDなど、それぞれの分野におけるエンティティを識別するための共有番号体系を採用するケースが増加している。これにより、データ統合の場面では、統合対象となるエンティティ記述の一部には共有識別子が利用可能である一方で、他の記述にはそのような識別子が存在しないという状況が生じる。このような状況下での課題は、識別子を含まないエンティティ記述に対して、識別子を含むエンティティ記述を訓練データとして用いてマッチャーを学習することにある。このタスクは、同一の現実世界のエンティティを表すエンティティ記述のペアと、異なるエンティティを表すペアを区別するバイナリ分類器を学習するアプローチで扱える。また、個々のエンティティの記述を識別する分類器を学習することで、マルチクラス分類問題として定式化することも可能である。本研究では、BERTモデルに対する二重目的学習手法であるJointBERTを提案する。この手法は、バイナリマッチングとマルチクラス分類を統合し、訓練ペア内の各エンティティ記述に対して識別子の予測を、マッチ/ノンマッチの判断と並行して行うようモデルに強制する。5つのエンティティマッチングベンチマークデータセットにおける評価結果から、十分な訓練データが両目的に対して確保できる場合、単一目的のTransformerベース手法と比較して、既存製品に関するマッチング性能がF1スコアで1~5%向上することが示された。さらに、提案手法の強みと弱みを深く理解するために、JointBERTを複数のBERTベースのマッチング手法およびベースラインシステムと比較し、特定のマッチング課題に沿った評価を実施した。その結果、両目的に十分な訓練データが用意できる場合、JointBERTは既存製品を対象とするタスクにおいて他の手法を上回ることが確認されたが、未観測製品に対する性能は劣ることが明らかになった。LIMEによる説明とドメイン固有の語類の組み合わせを用いた分析を通じて、各ディープラーニングモデルのマッチング判断のメカニズムを検証した結果、BERTベースのモデルがRNNベースのモデルに比べて、関連語類に焦点を当てた処理がより効果的であることが明らかになった。