تعزيز أنبوب RAG الخاص بك باسترجاع المستندات البصرية باستخدام ColPali وبناء نظم RAG متعددة الوسائط مع Cohere وGemini
في هذا الدليل ستتعلم كيفية بناء نظام استرجاع الوثائق البصرية باستخدام ColPali وهو متحول متعدد الوسائط قادر على فهم النصوص والصور معًا الوثائق الحديثة لم تعد تتكون فقط من النص بل تحتوي على جداول ورسوم بيانية وشاشات تقطيع وإنفوجرافيك وغيرها من العناصر البصرية التي تحمل معانٍ لا يمكن نقلها باللغة فحسب إذا اعتمدت أنظمتك لـ RAG على الاسترجاع النصي فقط فأنت تفوّت سياقًا قيمةً هذا المشروع يستخدم تضمينات متعددة الوسائط من Cohere و Gemini 2 5 Flash لبناء نظام RAG يفهم النصوص والصور مشكلة RAG التقليدية تتمثل في أنها تعتمد على تضمينات النص لاسترجاع المعلومات من الوثائق لكن ماذا لو كانت أفضل رؤىك مخفية في الجداول والرسوم البيانية والصور؟ سواء كنت تحلل ملفات PDF المالية أو تقارير البحث الاستثماري أو الشرائح السوقية فإن الكثير من المعلومات ذات الصلة تعيش في العناصر المرئية الطريقة النصية الخالصة تفشل في التقاط هذه الطبقات الحاسمة من المعلومات الحل هو RAG متعدد الوسائط والذي يعزز من RAG التقليدية بدمج فهم النص والصورة هذا النهج يتيح البحث من خلال الصور والنص في نفس الوثيقة فهرس متجه موحد مع دعم للوسائط المختلطة إجابات واعية بالسياق عبر Gemini باستخدام النص أو الصورة المطابقة التقنيات الأساسية تشمل تضمينات متعددة الوسائط من البداية إلى النهاية لنظام RAG المتعدد الوسائط يتم تحويل ملف PDF إلى صور ثم تضمينها باستخدام Cohere وخزنها في FAISS وأخيرًا تقديمها كسياق لـ Gemini 2 5 Flash مما يسمح بالإجابة على أسئلة مستندة إلى البيانات البصرية في مقارنة بين نتائج التطبيقات النصية فقط و RAG المتعددة الوسائط على نفس ملف ETF PDF كانت النتائج واضحة RAG النصية فقط تعبت في الإجابة على الأسئلة المستندة إلى البيانات المرئية بينما تعامل RAG المتعدد الوسائط مع المحتوى القائم على الصورة بكفاءة المشروع يتطلب بعض المتطلبات منها مفاتيح API وأنظمة متطلبة مثل Poppler الذي يستخدمه pdf2image لتحويل صفحات PDF إلى صور في مثال بسيط للبدء بمراحل تطبيق RAG المتعدد الوسائط نقوم أولا بتحويل صفحات PDF إلى صور ثم تضمينها باستخدام Cohere وأخيرًا تخزينها في FAISS واستخدام Gemini 2 5 Flash لإنتاج الإجابات هذا البند يوفر مثالًا مضغوطًا للتدفق الأساسي للعمل أما الكود الكامل والقابل للعمل مع واجهة المستخدم والبنية الوحدية ومنطق البحث فيتوافر في مستودع GitHub في مقارنة مرئية بين التطبيقات النصية فقط و RAG المتعدد الوسائط يمكن رؤية الفروقات في الإجابات على نفس الأسئلة مثلا في سؤال حول القيمة الإجمالية للإدارة في شركة Invesco تم العثور على الإجابة في الرسم البياني الشريطي في التطبيق المتعدد الوسائط بينما فشل التطبيق النصي فقط في العثور عليها وكذلك في سؤال حول ما حققته BlackRock من خدمات التكنولوجيا تم العثور على القيمة من الصورة في التطبيق المتعدد الوسائط بينما فشل التطبيق النصي فقط في العثور عليها فيما يتعلق بسؤال حول نسبة Apple في مؤشر S P فقد وجد التطبيق المتعدد الوسائط الإجابة في الرسم البياني الدائري بينما قدم التطبيق النصي بيانات تقريبية وفي سؤال حول أكبر ١٠ وزن في S P ٥٠٠ خلال جائحة كوفيد تم تحليل الرسم البياني الزمني في التطبيق المتعدد الوسائط بينما فشل التطبيق النصي فقط في العثور على الرقم الدقيق وأخيرًا في سؤال حول كيفية تتبع Bitcoin في صناديق ETF وجد التطبيق المتعدد الوسائط الإجابة في صورة الجدول بينما فشل التطبيق النصي فقط في العثور على الرقم الدقيق الخبراء في مجال الذكاء الوثائقي يؤكدون أن RAG المتعدد الوسائط يمثل خطوة كبيرة للأمام في مجال معالجة الوثائق وفهمها فهو يتيح الوصول إلى سياقات معلوماتية أعمق وأكثر دقة مما يمكن تحقيقه باستخدام RAG النصية فقط هذا المشروع يهدف إلى تحسين دقة الإجابات وفعالية البحث في الوثائق التي تحتوي على محتوى بصرية غني ومتعددة الوسائط
