HyperAIHyperAI

Command Palette

Search for a command to run...

طبقتا PDF تحددان جودة RAG

تطرح منهجية تحليلية جديدة لتحسين دقة أنظمة الاسترجاع المُولِّد من خلال معالجة ملفات PDF ككتل هيكلية ثنائية الطبقة بدلاً من نصوص مسطحة. يعتمد هذا الإطار على مكتبة PyMuPDF لفحص الوثائق بدقة عالية قبل بدء أي عملية استرجاع، بهدف تحويل البيانات إلى هياكل قابلة للاستعلام وتحسين توجيه الطلبات للتعامل مع كل نوع من المستندات المؤسسية. تغطي الطبقة الأولى إشارات الوثيقة الوصفية. يقوم النظام بقراءة حقول Creator وProducer لتحديد البرنامج المولد، مما يحدد استراتيجية التحليل المناسبة بين التصدير المباشر أو المسح الضوئي. كما يستخرج الفهرس الأصلي إن وجد، ويتحقق من حالة التشفير والنماذج. في حال التعارض بين البيانات الوصفية والمحتوى المرئي، يعطي النظام الأولوية الصريحة لمحتوى الصفحة الفعلي لضمان الدقة. تطبق الطبقة الثانية التحليل على مستوى الصفحات الفردية. يميز النظام بدقة بين النص الأصلي والمحاكى عبر رموز العرض، مما يحدد الحاجة لإعادة التشغيل الضوئي. يحسب غطاء الصور على كل صفحة لتحديد ما إذا كانت وثيقة مسح ضوئي كامل، ويكشف الجداول ذات البنية المتجهة وتوزيع الأعمدة النصية. تُسجل المواقع الأفقية للسطور لتصنيفها كواحدة أو متعددة الأعمدة، مما يمنع تشطير الجمل وتلف السياق أثناء الاسترجاع. بناءً على هذه المعطيات، تُصنف كل صفحة إلى فئات محددة مثل نصي أو مسح ضوئي أو مختلط، مع توجيهها تلقائياً إلى المسار المعالج المناسب. تكمل هذه الطبقات عمقاً دلالياً يعتمد على استدعاء ذكاء اصطناعي واحد فقط في مرحلة التحليل. يولد النظام ملخصاً موجزاً يحدد نوع المستند والموضوع الرئيسي والحقول النصية المضمنة. يُخزن هذا الملخص بشكل دائم مرتبطاً بالوثيقة، ليتم إدراجه مباشرة في أوامر النظام للباحث الذكي، مما يمنحه سياقاً فورياً للإجابة على استفسارات الهوية والحقائق دون الاعتماد على الاسترجاع العشوائي. يضمن هذا الأسلوب تخلص أنظمة الاسترجاع من أخطاء ترتيب النصوص المتعددة الأعمدة وفقدان دلالات الجداول. يحول التحليل الوثائق إلى جداول بيانات علائقية تمكن مكونات الاسترجاع والتوليد من العمل دون إعادة قراءة الملف الأصلي. يُعد هذا التطور خطوة عملية نحو معالجة الوثائق المؤسسية، ويسبقه نشر تفاصيل حول تحويل هذه الإشارات إلى هياكل بيانات جاهزة للإدماج المباشر في خطافات الاسترجاع التقليدية.

الروابط ذات الصلة

طبقتا PDF تحددان جودة RAG | القصص الشائعة | HyperAI