سباركلي: كتلة TF/IDF بسيطة ولكنها قوية بشكل مفاجئ لتطابق الكيانات
الحجب يُعد مهمة رئيسية في مطابقة الكيانات. تم تطوير العديد من حلول الحجب، ولكن كما يبدو لنا، لم يُلقَ استخدام قياس tf/idf الشهير في الحجب أي اهتمام تقريبًا. ومع ذلك، عند تجربتنا لحجب tf/idf باستخدام Lucene، وجدنا أنه أظهر أداءً جيدًا جدًا. ولذلك، نستعرض في هذا البحث الحجب باستخدام tf/idf بشكل مفصل. نُطور نظام Sparkly، الذي يستخدم Lucene لتنفيذ الحجب العلوي لـ k (top-k) باستخدام tf/idf بطريقة موزعة وبدون مشاركة ذاكرة (share-nothing) على مجموعة مُجمّعة من Spark. نطوّر تقنيات لتحديد السمات (attributes) والمحولات (tokenizers) الجيدة التي يمكن استخدامها في الحجب، مما يجعل Sparkly يعمل تلقائيًا بالكامل. نُجري تجارب واسعة تُظهر أن Sparkly يتفوق على 8 حلول حجب حديثة ومتطورة. وأخيرًا، نقدّم تحليلًا متعمقًا لأداء Sparkly من حيث دقة الاسترجاع (recall) وحجم المخرجات، وكذلك زمن التنفيذ. تشير نتائجنا إلى أن (أ) ينبغي إيلاء اهتمام أكبر للحجب باستخدام tf/idf، (ب) يُشكّل Sparkly أساسًا قويًا يجب أن تُقاس ضده الأبحاث المستقبلية في مجال الحجب، و(ج) ينبغي أن تأخذ الأبحاث المستقبلية بعين الاعتبار بشكل جدي الحجب العلوي لـ k، الذي يُسهم في تحسين دقة الاسترجاع، وكذلك البنية الموزعة بدون مشاركة ذاكرة، التي تُسهم في تحسين القابلية للتوسع، والتنبّؤية، والقابلية للتوسيع.