HyperAIHyperAI

Command Palette

Search for a command to run...

MAVE: 複数情報源からの属性値抽出のための製品データセット

Li Yang*1, Qifan Wang*1, Zac Yu2, Anand Kulkarni2, Sumit Sanghai1, Bin Shu2, Jon Elsas2, Bhargav Kanagal1

概要

属性値抽出とは、製品情報から関心のある属性の値を特定するタスクを指します。製品の属性値は、カスタマーサービスロボット、製品ランキング、検索、およびレコメンデーションなど、多くの電子商取引のシナリオにおいて重要な役割を果たします。しかし、実世界では製品の属性値がしばしば不完全であり、時間とともに変動することが多く、これにより実際の応用が大きく制限されています。本論文では、製品属性値抽出に関する研究をより効果的に推進するために新しいデータセットMAVEを紹介します。MAVEは、アマゾンページから選りすぐられた220万件の製品で構成され、1257の固有カテゴリにわたる300万件の属性-値注釈が含まれています。MAVEには以下の4つの主な特徴があります:第一に、MAVEは属性-値例の数で最大規模の製品属性値抽出データセットです。第二に、MAVEは製品からの多様な情報源を含んでおり、高品質な属性カバレッジで製品情報を完全に捉えています。第三に、MAVEは以前のデータセットがカバーしているものよりも多様な属性と値を表しています。最後に、MAVEは非常に困難なゼロショットテストセットを提供しており、実験結果でも示されている通りです。さらに、我々は多様な情報源から効果的に属性値を抽出する新しい手法を提案します。複数のベースラインを使用して広範囲な実験を行い、MAVEが属性値抽出タスクに対して効果的なデータセットであることを示しました。また、ゼロショットでの属性値抽出も非常に困難なタスクであることが確認されました。データセットは{\it \url{https://github.com/google-research-datasets/MAVE}}から入手可能です


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています