HyperAIHyperAI
منذ 18 أيام

تخصيص ثقل مصطلح الاستعلام من الطرف إلى الطرف

{Marc Najork, Mike Bendersky, Kashyap Kolipaka, Xingyu Wang, Wensong Xu, Swaraj Khadanga, Shaleen Gupta, Mingyang Zhang, Tao Chen, Weize Kong, Cheng Li, Karan Samel}
الملخص

تُعد أنظمة استرجاع المصطلحات القائمة على نموذج "حقيبة الكلمات" (Bag-of-words) أكثر الطرق شيوعًا في تطبيقات البحث الواقعية حتى اليوم. في الآونة الأخيرة، أظهرت أساليب التعلم العميق نتائج واعدة لتحسين أداء هذا الاسترجاع، لكنها تتطلب موارد حسابية عالية عند تشغيلها بشكل مباشر (online)، وصعبة التكامل في الأنظمة الإنتاجية الحالية، وقد لا تكون قادرة على التعميم بشكل جيد في سيناريوهات الاسترجاع خارج المجال (out-of-domain). بدلًا من ذلك، نعتمد على أنظمة الاسترجاع القائمة على المصطلحات ونقدم نموذجًا جديدًا يُدعى TW-BERT (نظام تقييم المصطلحات المبني على BERT). يتعلم نموذج TW-BERT توقع وزن لكل مصطلح مكون من n-gram (مثل المفردات والزوجيات) في استعلام المستخدم. يمكن استخدام هذه الأوزان والمقولات المستنتجة مباشرةً من قبل نظام الاسترجاع لأداء عملية بحث الاستعلام. ولتحسين هذه الأوزان، يدمج نموذج TW-BERT دالة التقييم المستخدمة من قبل محرك البحث، مثل نموذج BM25، لحساب درجات أزواج الاستعلام والوثيقة. وباستخدام أزواج محددة من الاستعلامات والوثائق، يمكن حساب خسارة الترتيب (ranking loss) بناءً على هذه الدرجات، مما يسمح بتحسين أوزان مصطلحات الاستعلام المُتعلمة بطريقة متكاملة (end-to-end). ويقلل التموضع المتناسق بين TW-BERT ودوال التقييم المستخدمة في محركات البحث من الحاجة إلى تعديلات كبيرة لدمجه في التطبيقات الإنتاجية الحالية، بينما تتطلب الأساليب الحالية القائمة على التعلم العميق لتحسين محركات البحث مزيدًا من تحسين البنية التحتية ومتطلبات الأجهزة. ويمكن استخدام الأوزان المُتعلمة بسهولة من قبل أنظمة الاسترجاع القياسية القائمة على المصطلحات، وكذلك من قبل تقنيات استرجاع أخرى مثل توسيع الاستعلام (query expansion). ونُظهر أن نموذج TW-BERT يُحسّن أداء الاسترجاع مقارنةً بالأساليب القوية السابقة في تقييم المصطلحات، ضمن مجموعة بيانات MSMARCO، وفي سيناريوهات الاسترجاع خارج المجال على مجموعات بيانات TREC.