GliNER2: استخراج المعلومات المُهيكلة من النص بذكاء وفعالية
تقدم GliNER2 تطورًا مهمًا في مجال استخراج المعلومات الهيكلية من النصوص، حيث يعيد التوازن بين الكفاءة والقدرة على التعامل مع المهام التقليدية في معالجة اللغة الطبيعية. على عكس نماذج الذكاء الاصطناعي الكبيرة (LLMs) التي تُستخدم أحيانًا لمهام بسيطة، تُعد GliNER2 نموذجًا خفيفًا يمكن تشغيله على وحدة المعالجة المركزية (CPU)، مع الحفاظ على دقة عالية في استخراج الكيانات والعلاقات والبيانات الهيكلية. تم إطلاق GliNER2 مبكرًا هذا العام، وتم تطويره ليكون إطارًا موحدًا يدمج استخراج الكيانات (NER)، واستخراج العلاقات، وتحويل النصوص إلى بيانات هندسية منظمة (مثل JSON) في عملية واحدة. يعتمد النموذج على نهج موجه بالمخطط (schema-driven)، حيث يمكن للمستخدم تحديد أنواع الكيانات والعلاقات المطلوبة بوضوح، مما يُحسّن دقة النتائج ويقلل من الحاجة إلى معالجة لاحقة. في تجربة تطبيقية على نص من مقال ويكيبديا عن آدا لوفيلاس، أظهر النموذج أداءً متميزًا في استخراج الكيانات مثل "أوغusta Ada King" و"شارلز باجيب" و"المحرك التحليلي"، مع تمييزها حسب النوع (شخص، اختراع، حدث). كما تمكّن من اكتشاف علاقات رئيسية مثل "تزوجت من"، "أُم لـ"، و"عملت على"، مع دعم تسمية الكيانات بعناوين بديلة (مثل "Ada Lovelace" كاسم بديل لـ "Augusta Ada King"). أحد أبرز الميزات هو القدرة على استخراج بيانات هندسية مباشرة من النص باستخدام طريقة extract_json، حيث يُمكن تحديد حقول مخصصة (مثل الاسم، تاريخ الولادة، الوصف) وتحديد نوعها (نص أو قائمة). رغم أن النموذج يُنتج بيانات منظمة بسهولة، إلا أنه يعاني من قيود في التفكير الاستنتاجي: فمثلاً، لم يُحدد جنس آدا لوفيلاس (رغم تضمين "ابنة" في النص)، وتم تسجيل بعض الأخطاء في علاقات الوالدية، مما يشير إلى أن النموذج يعتمد على الاستخراج المباشر، وليس التفسير المنطقي. على الرغم من هذه القيود، فإن GliNER2 يُعد حلًا عمليًا ومُثاليًا لبناء مخططات المعرفة (Knowledge Graphs)، خاصة عند الحاجة إلى نتائج متسقة وقابلة للتطبيق مباشرة. يمكن دمج استخراج الكيانات والعلاقات والبيانات الهيكلية في عملية واحدة، مما يُبسّط التدفق من النص غير المنظم إلى تمثيل منظم في قاعدة بيانات مثل Neo4j. تم استخدام استعلام Cypher لتحويل النتائج إلى عقد (Nodes) وعلاقات (Relationships) في Neo4j، مع حفظ النص الأصلي كمصدر قابل للاسترجاع، مما يعزز الشفافية والدقة في الاستعلامات. كما يمكن إضافة تمثيلات متجهة (embeddings) لتعزيز البحث والتحليل. باختصار، GliNER2 تمثل خطوة متقدمة نحو نماذج متخصصة وفعّالة، تُقدّم بديلًا ذكيًا لاستخدام نماذج ضخمة في مهام بسيطة. بينما لا تُنافس LLMs في التوليد المفتوح، فإنها تُضاهيها في الدقة والكفاءة في المهام المحددة، مما يجعلها أداة قوية لمشاريع استخراج البيانات الهيكلية، خصوصًا في سياقات المعرفة والتحليلات المعتمدة على البيانات.
