تعلم التبايني لاسترجاع الأسماء عبر.Script
تواجه أنظمة المطابقة في قواعد البيانات الهجرة والمستشفيات والأنظمة المالية مشكلة صامتة: فشلها في مطابقة الأسماء المكتوبة بخطوط مختلفة، مثل مطابقة "فلاديمير بوتين" المكتوبة بالسيريلية مع "Vladimir Putin" باللاتينية. الطرق التقليدية مثل مسافات التعديل أو رموز الصوت تتعثر هنا لأن الأسماء لا تشارك أحرفًا مشتركة، بينما تعتمد الحلول الحديثة على نماذج لغوية ضخمة ومكلفة. لحل هذه المعضلة، طور فريق بحثي نظامًا جديدًا يعتمد على محول (Encoder) صغير مبني من الصفر لمعالجة الحروف مباشرة كملفات بتية (Bytes) دون الحاجة إلى مفاتيح لغة أو نماذج أولية. لم يعتمد الباحثون على اكتشاف الخط أولاً، بل اعتمدوا على حقيقة أن كل حرف يونيكود يتحلل حتميًا إلى سلسلة بتية ثابتة. بتدريب نموذج على ملايين أزواج الأسماء الصدى عبر ثماني خطوط لغوية غير لاتينية (بما فيها العربية والصينية واليونانية واليهودية)، تمكن النظام من توحيد متجهات الأسماء المتطابقة صوتيًا بغض النظر عن خط الكتابة. نجح المشروع في تحقيق نتائج قياسية: نسبة عودة دقيقة (MRR) بلغت 0.775، ووصول إلى النتيجة الصحيحة في أول عشرة نتائج (R@10) بنسبة 0.897. الأهم من ذلك، تم تقليص الفجوة في الأداء بين الأسماء المكتوبة باللاتينية وتلك المكتوبة بغيرها بنسبة عشرة أضعاف مقارنة بأفضل الأساليب التقليدية. لبناء قاعدة البيانات اللازمة التي كانت ناقصة، استخدم الفريق سلسلة من الخطوات تعتمد على نماذج الذكاء الاصطناعي. بدأت العملية بعينة استراتيجيه من 119 ألف كيان اسمي من ويكي بيانات لضمان التوازن بين اللغات. ثم استُخدم نموذج لاما 3.1 لتوليد 4 متغيرات صوتية شائعة لكل اسم إنجليزي، مثل كتابة "Catherine" بطرق مختلفة تعكس سمات السماع البشرية. بعد ذلك، استخدم نموذج Qwen لتحويل هذه الأسماء إلى ثمانية خطوط لغوية مختلفة، مع ضمان قدرة النظام على استئناف العمل في حال حدوث عطل تقني. اعتمد النموذج التقني على 6 طبقات فقط بآلاف المعلمات القليلة (حوالي 4 مليون)، مما يجعله خفيفًا وسريعًا. استخدمت تقنية "التعلم التبايني" (Contrastive Learning) حيث يتم تقارب متجهات الأسماء المتطابقة صوتيًا وتباعدها عن الأسماء الأخرى. كما تم تحسين الدقة عبر تقنية "التنقيح الصارم للسلبيات" (Hard Negative Mining)، حيث يتم استخدام الأسماء التي يخلط بينها النموذج أثناء التدريب كمعايير صعوبة، مما يضطره للتعلم على التمييز بين الأسماء المتشابهة صوتيًا وليس فقط المختلفة. أظهرت النتائج أن النظام يتفوق في جميع السيناريوهات، لكن الصعوبة ظلت محصورة في اللغتين الصينية والكورية، حيث يتعارض التحويل الصوتي الواحدة من الحرف الواحد (مثل حرف "Zhang" الذي قد يُنطق تشانغ أو تشينغ) مع إشارات التدريب، مما يخلق غموضًا لا يمكن للنموذج حله بدقة كاملة دون بيانات أكثر تنوعًا. يُبرز هذا العمل أن المعالجة على مستوى البت هي أداة فعالة ومبتكرة للمهام متعددة اللغات حيث يهم الشكل السطحي للصوت أكثر من السياق الدلالي. كما تثبت أن النماذج اللغوية الكبيرة يمكن أن تكون محركًا فعالًا لإنشاء بيانات تدريبية ضخمة لمهام الاسترجاع منخفضة الموارد، دون الحاجة إلى تسميات بشرية مكلفة. هذا النهج يفتح آفاقًا جديدة لدوائر المطابقة الأمنية والهوية في عصر البيانات المتعددة اللغات.
