HyperAIHyperAI
Back to Headlines

Google تطلق أداة LangExtract لاستخراج البيانات بنحو ذكي ودقيق من النصوص غير المنظمة

منذ 3 أيام

أعلن جوجل مؤخرًا عن أداة جديدة تُسمى LangExtract، وهي مكتبة مفتوحة المصدر مكتوبة بلغة بايثون مصممة لاستخراج المعلومات المُهيكلة من النصوص غير المنظمة بدقة عالية، مع ضمان ربط النتائج بدقة بمرجعها الأصلي. تُعد هذه الأداة جزءًا من سلسلة من الإطلاقات المبتكرة التي تُظهر تقدمًا متسارعًا في مجال الذكاء الاصطناعي، وتمتاز بقدرتها على أداء مهام تشبه معالجة النصوص في أنظمة RAG (Retrieval-Augmented Generation) دون الحاجة إلى خطوات تقليدية مثل التجزئة أو التضمين. تتميز LangExtract بعدة ميزات رئيسية: تضمين الارتباط النصي الدقيق (text anchoring)، حيث يتم ربط كل كيان مستخرج بمكانه الدقيق في النص باستخدام مؤشرات أحرف، مما يسمح بالتحقق البصري من خلال التمييز التفاعلي. كما تضمن مخرجات منظمة وموثوقة من خلال تعريفات قليلة (few-shot) لصيغة المخرجات المطلوبة، وتدعم معالجة المستندات الكبيرة باستخدام تقنيات التجزئة المتعددة، المعالجة المتوازية، وعمليات الاستخراج المتعددة، مما يحافظ على دقة الاسترجاع حتى في النصوص التي تتجاوز الملايين من الرموز. كما تتيح إنشاء مُشاهدات تفاعلية تُظهر خطوات الاستخراج داخل النص الأصلي عبر ملفات HTML، وتدعم التكامل مع نماذج متعددة، سواء من جوجل (مثل Gemini) أو نماذج مفتوحة المصدر أو من OpenAI، مما يمنح المستخدم مرونة في اختيار المحرك المناسب. في مثال تطبيقي، تم اختبار الأداة على نص مكوّن من 3000 سطر من كتاب "أمراض الأبقار والضأن والغنم" من مشروع جوجل بوكس، حيث تم إدخال جملة مزيفة: "من المعلومة القليلة أن الخشب اخترعه إيلون ماسك في عام 1775". عند تشغيل LangExtract باستخدام نموذج Gemini-2.5-flash، تم استخراج الكيان المطلوب بدقة: اسم "إيلون ماسك"، الحدث "اختراع الخشب"، والعام "1775"، مما يُظهر قدرة الأداة على اكتشاف المعلومات النادرة في مجموعات نصية ضخمة. في مثال آخر، تم استخراج أسماء نماذج الذكاء الاصطناعي وتواريخ إصدارها من مقال ويكيبيديا عن OpenAI. أظهرت النتائج تفاصيل دقيقة مثل "ChatGPT" (2020)، "GPT-4" (2023)، و"Operator" (2025)، مع ملاحظة أن بعض النتائج قد تشمل تحيّزًا في التواريخ عند عدم توفرها في النص الأصلي، وهو ما يمكن التحكم فيه عبر تحسين النص التوجيهي (prompt). كما تم عرض النتائج في مُشاهد تفاعلية تُظهر تسلسل الاستخراج خطوة بخطوة، مما يعزز الشفافية والقدرة على التحقق. تُعد LangExtract أداة قوية لمهام الاستخراج النصي المعقدة، سواء في الأبحاث، تحليل الوثائق، أو تطوير تطبيقات الذكاء الاصطناعي، بفضل دمجها بين الدقة، المرونة، والقدرة على التكامل مع نماذج متعددة، مع الحفاظ على بساطة الاستخدام من خلال بيئة تطوير مُهيأة بسهولة باستخدام أدوات مثل UV وJupyter.

Related Links