نموذج Siamese مبني على BERT لتقييم ترتيب صلة البحث عبر الويب باستخدام مجموعة بيانات جديدة باللغة التشيكية

تركز محركات البحث على الويب على تقديم نتائج ذات صلة عالية في غضون مئات الملي ثانية. ولهذا السبب، يُعد استخدام النماذج اللغوية المُدرَّبة مسبقًا من نوع المحولات (مثل BERT) في هذا السياق أمرًا صعبًا نظرًا لاحتياجاتها العالية من الحوسبة. نقدّم هنا نهجنا الزمني الفعلي لمشكلة ترتيب المستندات، باستخدام بنية مُشابهة (siamese) تعتمد على BERT. وقد تم بالفعل نشر النموذج في محرك بحث تجاري، حيث يُحسّن الأداء في البيئة الإنتاجية بنسبة تزيد عن 3%. ولأغراض البحث والاختبار الإضافية، نُطلق مجموعة البيانات DaReCzech، وهي مجموعة فريدة تتضمن 1.6 مليون زوج من استعلامات المستخدمين والمستندات باللغة التشيكية، مع تقييمات يدوية لمستوى الصلة بينها. كما نُطلق Small-E-Czech، وهو نموذج لغوي من نوع Electra-small مُدرَّب مسبقًا على مجموعة كبيرة من النصوص التشيكية. نعتقد أن هذه البيانات ستدعم جهودًا في مجالي صلة محركات البحث والبحث متعدد اللغات.