2ヶ月前
MAVE: 複数情報源からの属性値抽出のための製品データセット
Li Yang; Qifan Wang; Zac Yu; Anand Kulkarni; Sumit Sanghai; Bin Shu; Jon Elsas; Bhargav Kanagal

要約
属性値抽出とは、製品情報から関心のある属性の値を特定するタスクを指します。製品の属性値は、カスタマーサービスロボット、製品ランキング、検索、およびレコメンデーションなど、多くの電子商取引のシナリオにおいて重要な役割を果たします。しかし、実世界では製品の属性値がしばしば不完全であり、時間とともに変動することが多く、これにより実際の応用が大きく制限されています。本論文では、製品属性値抽出に関する研究をより効果的に推進するために新しいデータセットMAVEを紹介します。MAVEは、アマゾンページから選りすぐられた220万件の製品で構成され、1257の固有カテゴリにわたる300万件の属性-値注釈が含まれています。MAVEには以下の4つの主な特徴があります:第一に、MAVEは属性-値例の数で最大規模の製品属性値抽出データセットです。第二に、MAVEは製品からの多様な情報源を含んでおり、高品質な属性カバレッジで製品情報を完全に捉えています。第三に、MAVEは以前のデータセットがカバーしているものよりも多様な属性と値を表しています。最後に、MAVEは非常に困難なゼロショットテストセットを提供しており、実験結果でも示されている通りです。さらに、我々は多様な情報源から効果的に属性値を抽出する新しい手法を提案します。複数のベースラインを使用して広範囲な実験を行い、MAVEが属性値抽出タスクに対して効果的なデータセットであることを示しました。また、ゼロショットでの属性値抽出も非常に困難なタスクであることが確認されました。データセットは{\it \url{https://github.com/google-research-datasets/MAVE}}から入手可能です。