HyperAIHyperAI

Command Palette

Search for a command to run...

الذكاء الاصطناعي يسهل البحث في ملايين الوثائق الحكومية

أعلن فريق بحثي من جامعة واشنطن عن تطوير نظام GovScape، وهو محرك بحث متقدم مصمم خصيصًا للوصول إلى ملايين المستندات الحكومية الرقمية المخزنة في أرشيف نهاية الولاية الرئاسية. يغطي الأرشيف الذي أُطلق عام 2008 ويتواصل حتى 2024 صورة الويب الكاملة للإدارات الأمريكية السابقة، ويحتوي على مزيج معقد من النصوص والرسوم البيانية والصور والمستندات المسدلة، مما يجعل استخلاص المعلومات منه تحديًا كبيرًا أمام الباحثين والصحفيين. يعتمد GovScape على نماذج ذكاء اصطناعي فعّالة لمعالجة ملفات صيغة PDF، حيث يقوم النظام بتقسيم كل ملف إلى صفحات منفصلة، وتوليد متجهات رقمية مدمجة تمثل المحتوى النصي والصوري لكل صفحة. يتيح هذا الهيكل ثلاث طرق بحث متكاملة: البحث النصي الدقيق، والبحث الدلالي الذي يفهم السياق الموضوعي دون اشتراط مطابقة الكلمات حرفياً، والبحث البصري الذي يستهدف خصائص مرئية محددة مثل المستندات المسدلة أو الصور الجوية والمخططات الإحصائية. أظهرت التجارب الأولية قدرة النظام على فهرسة 10 ملايين ملف PDF خاصة بالفترة الرئاسية الأولى، بتكلفة إجمالية أقل من 1500 دولار، ما يعادل دولاراً واحداً لكل 47 ألف صفحة، وهو إنجاز تقني واقتصادي يفوق بكثير تكاليف المعالجة التجارية المماثلة. وأكد الأستاذ المساعد بنجامين تشارلز جيرمان لي، المؤرخ الرئيسي للبحث، أن الحجم الهائل للأرشيفات الرقمية يحد من فعاليتها، مشدداً على أن تسهيل الوصول للمعلومة الحكومية عبر أدوات كهذه يعزز الشفافية ووظائف الديمقراطية. من المقرر تقديم النتائج البحثية في الخامس من يوليو الجاري خلال اجتماع جمعية اللغويات الحسابية السنوي في سان دييغو، وسيتم نشر الورقة على منصة arXiv. ينوي الفريق التقني الآن توسيع نطاق الفهرسة لشمول الـ 70 مليون ملف المكونين للأرشيف كاملاً، مع استكشاف دمج أنواع ملفات أخرى مثل الجداول الإلكترونية، لضمان بقاء النظام أداة حيوية لمواكبة النمو المستمر للبيانات الحكومية.

الروابط ذات الصلة