2ヶ月前

LLMを用いた製品属性値の抽出と正規化

Alexander Brinkmann; Nick Baumann; Christian Bizer
LLMを用いた製品属性値の抽出と正規化
要約

電子商取引サイトの製品オファーは、通常、製品タイトルとテキスト形式の製品説明から構成されています。ファセット付き製品検索や製品比較表の生成などの機能を実現するためには、非構造化された製品タイトルと説明から構造化された属性-値ペアを抽出し、各属性に対して単一かつ統一されたスケールに抽出された値を正規化することが必要です。本論文では、GPT-3.5 や GPT-4 などの大規模言語モデル(LLMs)を使用して、製品タイトルと説明から属性値を抽出および正規化する可能性を探ります。異なるゼロショットおよびファーソットプロンプトテンプレートを使用して、LLMs に属性-値ペアの抽出と正規化を指示する実験を行いました。また、当該実験のために Web Data Commons - Product Attribute Value Extraction (WDC-PAVE) ベンチマークデータセットを導入しました。WDC-PAVE は、schema.org アノテーションを提供する 59 の異なるウェブサイトからの製品オファーで構成されており、5 種類の異なる製品カテゴリーに属しています。各カテゴリーには特定の属性セットが設定されています。このデータセットは、手動で確認された属性-値ペアを以下の 2 形式で提供しています:(i) 直接抽出された値と (ii) 正規化された属性値。属性値の正規化には、システムが以下の操作を行う必要があります:名前展開、一般化、測定単位変換、文字列処理。我々の実験結果は、GPT-4 が SU-OpenTag, AVEQA, MAVEQA といった PLM 基盤の抽出手法よりも 10% 高い性能を示し、F1 スコアが 91% を達成したことを示しています。製品属性値の抽出と正規化においても GPT-4 は同様の性能を発揮しており、特に文字列処理と名前展開において優れた能力を示しています。

LLMを用いた製品属性値の抽出と正規化 | 最新論文 | HyperAI超神経