HyperAIHyperAI

Command Palette

Search for a command to run...

Proxy-Pointer RAG: إجابات متعددة الوسائط بدون تضميناتها

تعاني أنظمة البحث والتوليد التقليدية (RAG) من عجز كبير في القدرة على تقديم إجابات بصرية موثوقة، حيث تكتفي غالباً بتزويد المستخدم بروابط للنصوص أو المستندات الأصلية بدلاً من عرض الصور والجداول بشكل مباشر ومترابط مع السياق. يعود السبب الرئيسي لهذا القصور إلى طريقة التقسيم القديمة التي تعتمد على كسر النصوص إلى كتل عشوائية (Chunks) بدون مراعاة للهيكلية، مما يؤدي إلى فصل الصور عن سياقها المعنوي ويجعل الذكاء الاصطناعي غير قادر على تحديد ما إذا كانت الصورة ذات صلة بالسؤال أم لا. تقترح تقنية جديدة تسمى "Proxy-Pointer RAG" حلاً يعتمد على النظر إلى المستند كهيكل هرمي من الوحدات الدلالية الكاملة بدلاً من كتل نصية ممزقة. في هذا النظام، لا يتم دمج الصور مع النصوص في فضاء متجهي واحد كما تفعل طرق الاندماج المتعددة الوسائط، والتي قد تخلق تشابهات بصرية مضللة. بدلاً من ذلك، يقوم النظام بتقسيم المستند بناءً على حدود الأقسام الفعالة، حيث يتم حفظ مسارات الصور داخل كل قسم كمرجعات. عندما يطرح المستخدم سؤالاً، يقوم النظام باسترجاع الأقسام الكاملة أولاً، ثم يترك مهمة اختيار الصورة المناسب للذكاء الاصطناعي القائم على النص، والذي يقرر بناءً على سياق القسم النصي الكامل ما إذا كانت الصورة موجودة وما إذا كانت ذات صلة. تم تطوير نموذج تجريبي باستخدام خمس أوراق بحثية في مجال الذكاء الاصطناعي تحتوي على مئات الصور والجداول. استخدم النظام نموذجاً نصياً فقط لتشفير النصوص (Embeddings)، مع الاعتماد على واجهة Adobe لاستخراج الجداول والصور كملفات منفصلة. تم اختبار النظام باستخدام خوارزمية FAISS للفهرسة، حيث مر البحث بمراحل: استرجاع واسع النطاق لأكواد الأقسام، إعادة ترتيب النتائج مع مراعاة المسار الهيكلي للمستند، ثم توليد الإجابة النصية واختيار الصور الأكثر ملاءمة من ضمن الأقسام المسترجعة. أظهرت النتائج دقة تصل إلى 95% في استرجاع الصور الصحيحة، دون أي حالات تم فيها عرض صورة خاطئة من مستند غير ذي صلة، وهو ما يعزز ثقة المستخدم في النظام. تتميز هذه المقاربة بكفاءتها العالية وتكلفتها المنخفضة مقارنة بالأنظمة التي تتطلب نماذج اندماج متعددة الوسائط مكلفة. ومع ذلك، تواجه بعض التحديات مثل عدم تجانس نتائج الذكاء الاصطناعي في اختيار الصورة، أو صعوبة استرجاع الصور الموجودة داخل فروع فرعية للأقسام إذا كانت الاستعلامات واسعة جداً. يمكن التغلب على هذه المشاكل عبر تحسين تسمية الملفات أو استخدام فلتر بصري إضافي، وإن كان ذلك يزيد من زمن الاستجابة قليلاً. يُعد هذا النظام خطوة عملية هامة نحو جعل مساعدي الدردشة للشركات أكثر فاعلية، حيث يمكنهم الآن عرض الجداول التوضيحية والرسوم البيانية بدقة عالية دون الحاجة إلى بنية تحتية معقدة للتعامل مع الصور مباشرة. المشروع مفتوح المصدر بالكامل، مما يسمح للمطورين بتجربته على وثائقهم الخاصة وتوسيع نطاق استخدامه في مختلف المجالات الصناعية والبحثية.

الروابط ذات الصلة