MAVE: مجموعة بيانات منتج لاستخراج قيم السمات من مصادر متعددة

استخراج قيمة السمة يشير إلى مهمة تحديد قيم السمة المطلوبة من معلومات المنتج. تعتبر قيم سمات المنتجات ضرورية في العديد من سيناريوهات التجارة الإلكترونية، مثل روبوتات خدمة العملاء، تصنيف المنتجات، الاسترجاع والتوصيات. ومع ذلك، في العالم الحقيقي، تكون قيم السمات للمنتج غالبًا غير كاملة وتتغير بمرور الوقت، مما يعرقل بشكل كبير التطبيقات العملية. في هذا البحث، نقدم MAVE (MAVE)، وهي مجموعة بيانات جديدة تساعد بشكل أفضل على البحث في استخراج قيمة سمة المنتج. تتكون MAVE من مجموعة مختارة بعناية تضم 2.2 مليون منتج من صفحات أمازون، مع 3 ملايين تعليمة لقيم السمات عبر 1257 فئة فريدة. ولديها MAVE أربعة مزايا رئيسية وفريدة: أولاً، تعد MAVE أكبر مجموعة بيانات لاستخراج قيمة سمة المنتج من حيث عدد أمثلة القيمة-السمة. ثانياً، تحتوي MAVE على تمثيلات متعددة المصادر من المنتج، مما يلتقط المعلومات الكاملة عن المنتج مع تغطية عالية للسمات. ثالثاً، تمثل MAVE مجموعة أكثر تنوعًا من السمات والقيم مقارنة بما تغطيه المجموعات السابقة. وأخيراً، توفر MAVE مجموعة اختبار صعبة جدًا بدون أمثلة سابقة (Zero-shot)، كما نوضح ذلك بالتجارب التجربيّة. نقترح أيضًا نهجًا جديدًا يستخرج قيمة السمة بكفاءة من المعلومات المتعددة المصادر عن المنتج. نقوم بإجراء تجارب واسعة النطاق باستخدام عدة نقاط بداية ونظهر أن MAVE هي مجموعة بيانات فعالة لمهمة استخراج قيمة السمة. إنها أيضًا مهمة صعبة جدًا في استخراج القيمة بدون أمثلة سابقة (Zero-shot). يمكن الوصول إلى البيانات عبر الرابط {\it \url{https://github.com/google-research-datasets/MAVE}}.