17日前
事前学習された言語モデルを用いた深層エンティティマッチング
Yuliang Li, Jinfeng Li, Yoshihiko Suhara, AnHai Doan, Wang-Chiew Tan

要約
本稿では、事前学習済みTransformerベースの言語モデルを活用した新しいエンティティマッチング(EM)システム「Ditto」を提案する。我々は、EMを単純なシーケンスペア分類問題として定式化し、このアーキテクチャにより事前学習済み言語モデル(例:BERT、DistilBERT、RoBERTa)を効果的に活用する。実験の結果、大規模なテキストコーパスで事前学習された言語モデルをそのまま適用するだけで、従来の最先端(SOTA)手法を上回る性能を達成し、ベンチマークデータセット上でF1スコアで最大29%の向上が確認された。さらに、Dittoのマッチング能力を向上させるための3つの最適化技術を開発した。Dittoは、マッチング判断に重要となる入力情報に注目を向けさせることで、ドメイン知識を容易に組み込むことが可能である。また、長すぎる文字列を要約することで、マッチングに必要な情報のみを保持・利用する仕組みを備えている。さらに、テキスト分野における最先端のデータ拡張技術をEMに適応し、困難な例を訓練データに追加することで、モデルがより「難しい」例から学習できるようにしている。これにより、Dittoのマッチング能力が向上する。これらの最適化技術により、Dittoの性能はさらに最大9.8%向上する。特に驚くべき点として、Dittoは従来のSOTA手法と同等の結果を、ラベル付きデータの半分以下で達成できることを実証した。最後に、実世界の大規模EMタスクにおけるDittoの有効性を示した。789,000件および412,000件の企業データセット間のマッチングにおいて、Dittoは96.5%という高いF1スコアを達成した。