Command Palette
Search for a command to run...
MAVE: مجموعة بيانات منتج لاستخراج قيم السمات من مصادر متعددة
MAVE: مجموعة بيانات منتج لاستخراج قيم السمات من مصادر متعددة
Li Yang*1, Qifan Wang*1, Zac Yu2, Anand Kulkarni2, Sumit Sanghai1, Bin Shu2, Jon Elsas2, Bhargav Kanagal1
الملخص
استخراج قيمة السمة يشير إلى مهمة تحديد قيم السمة المطلوبة من معلومات المنتج. تعتبر قيم سمات المنتجات ضرورية في العديد من سيناريوهات التجارة الإلكترونية، مثل روبوتات خدمة العملاء، تصنيف المنتجات، الاسترجاع والتوصيات. ومع ذلك، في العالم الحقيقي، تكون قيم السمات للمنتج غالبًا غير كاملة وتتغير بمرور الوقت، مما يعرقل بشكل كبير التطبيقات العملية. في هذا البحث، نقدم MAVE (MAVE)، وهي مجموعة بيانات جديدة تساعد بشكل أفضل على البحث في استخراج قيمة سمة المنتج. تتكون MAVE من مجموعة مختارة بعناية تضم 2.2 مليون منتج من صفحات أمازون، مع 3 ملايين تعليمة لقيم السمات عبر 1257 فئة فريدة. ولديها MAVE أربعة مزايا رئيسية وفريدة: أولاً، تعد MAVE أكبر مجموعة بيانات لاستخراج قيمة سمة المنتج من حيث عدد أمثلة القيمة-السمة. ثانياً، تحتوي MAVE على تمثيلات متعددة المصادر من المنتج، مما يلتقط المعلومات الكاملة عن المنتج مع تغطية عالية للسمات. ثالثاً، تمثل MAVE مجموعة أكثر تنوعًا من السمات والقيم مقارنة بما تغطيه المجموعات السابقة. وأخيراً، توفر MAVE مجموعة اختبار صعبة جدًا بدون أمثلة سابقة (Zero-shot)، كما نوضح ذلك بالتجارب التجربيّة. نقترح أيضًا نهجًا جديدًا يستخرج قيمة السمة بكفاءة من المعلومات المتعددة المصادر عن المنتج. نقوم بإجراء تجارب واسعة النطاق باستخدام عدة نقاط بداية ونظهر أن MAVE هي مجموعة بيانات فعالة لمهمة استخراج قيمة السمة. إنها أيضًا مهمة صعبة جدًا في استخراج القيمة بدون أمثلة سابقة (Zero-shot). يمكن الوصول إلى البيانات عبر الرابط {\it \url{https://github.com/google-research-datasets/MAVE}}.