HyperAIHyperAI
منذ 2 أشهر

استخدام نماذج اللغة الكبيرة (LLMs) لاستخراج وتقييم قيم خصائص المنتجات

Alexander Brinkmann; Nick Baumann; Christian Bizer
استخدام نماذج اللغة الكبيرة (LLMs) لاستخراج وتقييم قيم خصائص المنتجات
الملخص

تتألف عروض المنتجات على مواقع التجارة الإلكترونية غالبًا من عنوان المنتج ووصف نصي للمنتج. لتمكين ميزات مثل البحث في المنتجات باستخدام المعايير المتعددة أو إنشاء جداول مقارنة للمنتجات، من الضروري استخراج أزواج الخصائص والقيم المنظمة من العناوين والوصف النصي غير المنظم للمنتجات وتطبيع القيم المستخرجة إلى مقياس واحد وموحد لكل خاصية. يبحث هذا البحث في إمكانية استخدام نماذج اللغات الكبيرة (LLMs) مثل GPT-3.5 وGPT-4 لاستخراج وتطبيع قيم الخصائص من عناوين ووصف المنتجات. نجري تجارب باستخدام قوالب تعليم مختلفة للنماذج اللغوية الكبيرة (LLMs) لاستخراج وتطبيع أزواج الخصائص والقيم. نقدم مجموعة بيانات Web Data Commons - استخراج قيمة الخاصية للمنتج (WDC-PAVE) كمعيار للمقارنة في تجاربنا. تتكون WDC-PAVE من عروض المنتجات في 59 موقعًا مختلفًا توفر شروحًا بتنسيق schema.org. تنتمي هذه العروض إلى خمس فئات مختلفة من المنتجات، كل منها لديها مجموعة معينة من الخصائص. توفر المجموعة البيانات أزواج الخصائص والقيم التي تم التحقق منها يدويًا بأشكالين: (i) القيم المستخرجة مباشرةً و(ii) قيم الخصائص المطبّعة. يتطلب تطبيق تطبيع قيم الخصائص أن تقوم الأنظمة بالعمليات التالية: توسيع الأسماء، التعميم، تحويل الوحدات القياسية، ومعالجة السلاسل النصية. تظهر تجاربنا أن GPT-4 يتفوق على طرق الاستخراج القائمة على النماذج اللغوية المعتمدة على التعلم العميق (PLM)، مثل SU-OpenTag، AVEQA، وMAVEQA بنسبة 10%، حيث حقق درجة F1 بلغت 91%. بالنسبة لاستخراج وتقييم قيم خواص المنتج، يحقق GPT-4 أداءً مشابهًا للأداء في سيناريو الاستخراج، بينما يتميز بشكل خاص بمعالجة السلاسل النصية وتوسيع الأسماء.

استخدام نماذج اللغة الكبيرة (LLMs) لاستخراج وتقييم قيم خصائص المنتجات | أحدث الأوراق البحثية | HyperAI