منذ 11 أيام
BM25S: بحث لغوي أسرع بمرات عديدة من خلال التقييم المبكر النادر
Xing Han Lù

الملخص
نُقدِّم BM25S، تنفيذ فعّال لـ BM25 مبني على لغة بايثون، يعتمد فقط على مكتبي Numpy وScipy. تحقق BM25S تسريعًا يصل إلى 500 مرة مقارنة بأكثر الإطارات البرمجية المستندة إلى بايثون شيوعًا، من خلال حساب نقاط BM25 مسبقًا أثناء عملية الفهرسة وتخزينها في مصفوفات نادرة. كما تُحقِّق تحسينات كبيرة في السرعة مقارنة بتنفيذات جافا المُحسَّنة بشكل عالٍ، والتي تُستخدم في منتجات تجارية شهيرة. وأخيرًا، تعيد BM25S تنفيذ الدقيق لخمسة أنماط مختلفة من BM25 بناءً على العمل المنشور لـ Kamphuis et al. (2020)، وذلك من خلال تمديد طريقة الحساب المسبق إلى النماذج غير النادرة باستخدام طريقة جديدة لنقل الدرجات. يمكن العثور على الكود على الرابط: https://github.com/xhluca/bm25s