HyperAIHyperAI

Command Palette

Search for a command to run...

Google تطلق أداة جديدة لاستخراج البيانات الهيكلية من المستندات المعقدة باستخدام LangExtract وGemma 3

استخدمت Google إطار عمل LangExtract مع نموذج Gemma 3، أحد أحدث النماذج اللغوية المفتوحة المصدر من جوجل، لاستخراج معلومات منسقة من مستندات معقدة مثل وثائق التأمين والسجلات الطبية والتقارير التنظيمية. هذه المستندات غالبًا ما تكون طويلة وغير منظمة، مما يجعل استخلاص التفاصيل المهمة مثل حدود التغطية أو الاستثناءات أمرًا شبه مستحيل للأشخاص العاديين. يتميز LangExtract بسهولته، حيث يسمح بتنفيذ استخراج البيانات الهيكلية باستخدام بضعة أسطر كود فقط. يعتمد على قدرات النماذج اللغوية الكبيرة (LLMs) لاستخراج الكيانات (مثل الشروط والاستثناءات) وربطها منطقيًا، مع دعمه لاستخراج العلاقات بين العناصر. أما Gemma 3، فهو نموذج خفيف الوزن مبني على بحوث Gemini، ويتوفر بخمسة أحجام (270 مليون إلى 27 مليار معامل)، ويُعد الأقوى في فئته الذي يمكن تشغيله على بطاقة رسوميات واحدة، مع دعمه لمحادثات تصل إلى 128 ألف رمز. في الممارسة، تم استخدام نموذج Gemma 3 (4B) عبر أداة Ollama لتشغيله محليًا، مع ضرورة توفر وحدة معالجة رسومية (GPU) لتحسين الأداء. تم تحميل مستند وثيقة تأمين سيارات من موقع MSIG سنغافورة باستخدام مكتبة PyMuPDF لاستخراج النصوص من ملف PDF، ثم تم معالجته عبر فئة PDFProcessor لتقسيمه إلى أجزاء قابلة للتحليل. الخطوة التالية كانت هندسة المُدخل (Prompt Engineering)، حيث تم تحديد المخرجات المطلوبة بوضوح عبر رسالة نظام (System Prompt) تطلب استخراج الاستثناءات بتنسيق JSON، وهو أمر حاسم لتجنب أخطاء التحليل الناتجة عن مخرجات غير منظمة. كما تم استخدام التغذية بالمسائل النموذجية (Few-shot Prompting) عبر فئة ExampleData لتمكين النموذج من فهم السياق وتوقع التصنيف الصحيح. تم تنفيذ عملية الاستخراج باستخدام دالة extract في LangExtract، مع تمكين الاستخدام المتوازي عبر معلمات مثل max_workers لتسريع المعالجة. كما تم استخدام ممرات متعددة (Multiple Extraction Passes) لتحسين دقة الاستخراج، حيث تُجرى عمليات استخراج متعددة، وتُدمج النتائج مع الحفاظ على النسخة الأولى في حال التكرار، مما يرفع من دقة الكشف (الاستدعاء) على حساب زيادة استهلاك الموارد. تم حفظ النتائج باستخدام وحدة io في LangExtract، ثم تمت معالجتها برمجيًا لتحسين قابلية القراءة، مما أنتج مخرجات منظمة تُظهر كل استثناء مُستخرجًا مع نصه الأصلي وشرحه باللغة البسيطة، مما يسهل فهم الشروط المعقدة. النتائج أظهرت أن الجمع بين تقنيات التقسيم الذكي (Chunking)، المعالجة المتوازية، والعمليات المتعددة، مع قوة Gemma 3، يُحدث تحولًا في قدرة الاستخراج من المستندات الطويلة. النتائج دقيقة، قابلة للتتبع، ومستعدة للاستخدام العملي في تطبيقات مثل تحليل التأمين أو التحقق من الامتثال. هذا النموذج يمثل خطوة متقدمة نحو تحويل المستندات غير المنظمة إلى بيانات قابلة للتحليل، مما يفتح آفاقًا واسعة في القطاعات التي تعتمد على المعالجة الدقيقة للمعلومات.

الروابط ذات الصلة

Google تطلق أداة جديدة لاستخراج البيانات الهيكلية من المستندات المعقدة باستخدام LangExtract وGemma 3 | القصص الشائعة | HyperAI