HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

سباركلي: كتلة TF/IDF بسيطة ولكنها قوية بشكل مفاجئ لتطابق الكيانات

{AnHai Doan Yash Govind Derek Paulsen}

الملخص

الحجب يُعد مهمة رئيسية في مطابقة الكيانات. تم تطوير العديد من حلول الحجب، ولكن كما يبدو لنا، لم يُلقَ استخدام قياس tf/idf الشهير في الحجب أي اهتمام تقريبًا. ومع ذلك، عند تجربتنا لحجب tf/idf باستخدام Lucene، وجدنا أنه أظهر أداءً جيدًا جدًا. ولذلك، نستعرض في هذا البحث الحجب باستخدام tf/idf بشكل مفصل. نُطور نظام Sparkly، الذي يستخدم Lucene لتنفيذ الحجب العلوي لـ k (top-k) باستخدام tf/idf بطريقة موزعة وبدون مشاركة ذاكرة (share-nothing) على مجموعة مُجمّعة من Spark. نطوّر تقنيات لتحديد السمات (attributes) والمحولات (tokenizers) الجيدة التي يمكن استخدامها في الحجب، مما يجعل Sparkly يعمل تلقائيًا بالكامل. نُجري تجارب واسعة تُظهر أن Sparkly يتفوق على 8 حلول حجب حديثة ومتطورة. وأخيرًا، نقدّم تحليلًا متعمقًا لأداء Sparkly من حيث دقة الاسترجاع (recall) وحجم المخرجات، وكذلك زمن التنفيذ. تشير نتائجنا إلى أن (أ) ينبغي إيلاء اهتمام أكبر للحجب باستخدام tf/idf، (ب) يُشكّل Sparkly أساسًا قويًا يجب أن تُقاس ضده الأبحاث المستقبلية في مجال الحجب، و(ج) ينبغي أن تأخذ الأبحاث المستقبلية بعين الاعتبار بشكل جدي الحجب العلوي لـ k، الذي يُسهم في تحسين دقة الاسترجاع، وكذلك البنية الموزعة بدون مشاركة ذاكرة، التي تُسهم في تحسين القابلية للتوسع، والتنبّؤية، والقابلية للتوسيع.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
blocking-on-abt-buySparkly k=50
Candidate Set Size: 54500
Recall: 99.2
blocking-on-abt-buySparkly k=10
Candidate Set Size: 10900
Recall: 98.1
blocking-on-amazon-googleSparkly k=50
Candidate Set Size: 165900
Recall: 99.2
blocking-on-amazon-googleSparkly k=10
Candidate Set Size: 33300
Recall: 96.8

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
سباركلي: كتلة TF/IDF بسيطة ولكنها قوية بشكل مفاجئ لتطابق الكيانات | الأوراق البحثية | HyperAI