التوافق والتجزئة القابلة للتوسع للكيانات باستخدام FAMER
تمييز الكيانات (Entity resolution) يُحدد الكيانات المكافئة من الناحية الدلالية، مثل وصف نفس المنتج أو العميل. ويعتبر هذا التحدي كبيرًا بشكل خاص في تطبيقات البيانات الضخمة (Big Data)، حيث يجب مطابقة كميات ضخمة من البيانات المستمدة من مصادر متعددة ودمجها. ولذلك، نقدّم إطارًا قابلاً للتوسع لتمييز الكيانات يُسمّى FAMER (نظام تمايز كيانات سريع متعدد المصادر)، والذي يُعتمد على Apache Flink لتنفيذ العمليات الموزعة، ويُمكنه مطابقة الكيانات من مصادر متعددة بشكل شمولي. ولتحقيق هذا الهدف، يحتوي FAMER على عدة نماذج تجميع (clustering schemes) تُجمّع الكيانات المطابقة من مصادر مختلفة داخل مجموعات (Clusters). وبالإضافة إلى النماذج المعروفة سابقًا، يضم FAMER أساليب جديدة مُصممة خصيصًا لتمييز الكيانات متعددة المصادر. ونُجري تقييمًا مقارنًا مفصّلًا لثمانية نماذج تجميع على مجموعات بيانات حقيقية وبيانات مُولَّدة اصطناعيًا مختلفة. ويُراعى في هذا التقييم كل من جودة المطابقة وقابلية التوسع عند استخدام أعداد مختلفة من الآلات وبحجوم بيانات متفاوتة.