HyperAIHyperAI

Command Palette

Search for a command to run...

سباركلي: كتلة TF/IDF بسيطة ولكنها قوية بشكل مفاجئ لتطابق الكيانات

AnHai Doan Yash Govind Derek Paulsen

الملخص

الحجب يُعد مهمة رئيسية في مطابقة الكيانات. تم تطوير العديد من حلول الحجب، ولكن كما يبدو لنا، لم يُلقَ استخدام قياس tf/idf الشهير في الحجب أي اهتمام تقريبًا. ومع ذلك، عند تجربتنا لحجب tf/idf باستخدام Lucene، وجدنا أنه أظهر أداءً جيدًا جدًا. ولذلك، نستعرض في هذا البحث الحجب باستخدام tf/idf بشكل مفصل. نُطور نظام Sparkly، الذي يستخدم Lucene لتنفيذ الحجب العلوي لـ k (top-k) باستخدام tf/idf بطريقة موزعة وبدون مشاركة ذاكرة (share-nothing) على مجموعة مُجمّعة من Spark. نطوّر تقنيات لتحديد السمات (attributes) والمحولات (tokenizers) الجيدة التي يمكن استخدامها في الحجب، مما يجعل Sparkly يعمل تلقائيًا بالكامل. نُجري تجارب واسعة تُظهر أن Sparkly يتفوق على 8 حلول حجب حديثة ومتطورة. وأخيرًا، نقدّم تحليلًا متعمقًا لأداء Sparkly من حيث دقة الاسترجاع (recall) وحجم المخرجات، وكذلك زمن التنفيذ. تشير نتائجنا إلى أن (أ) ينبغي إيلاء اهتمام أكبر للحجب باستخدام tf/idf، (ب) يُشكّل Sparkly أساسًا قويًا يجب أن تُقاس ضده الأبحاث المستقبلية في مجال الحجب، و(ج) ينبغي أن تأخذ الأبحاث المستقبلية بعين الاعتبار بشكل جدي الحجب العلوي لـ k، الذي يُسهم في تحسين دقة الاسترجاع، وكذلك البنية الموزعة بدون مشاركة ذاكرة، التي تُسهم في تحسين القابلية للتوسع، والتنبّؤية، والقابلية للتوسيع.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
سباركلي: كتلة TF/IDF بسيطة ولكنها قوية بشكل مفاجئ لتطابق الكيانات | مستندات | HyperAI