تفسير المستندات عبر نماذج الرؤية واللغة الذاتية: حُلّ محل Gemini و OpenAI بأقل تكلفة وأمان أكبر
ملخص الأسبوع: رؤيا اللغة على نطاق واسع، حدود نماذج o1، RAG 2.0، وأنظمة الوكلاء المتعددة مقدمة مرحباً، عشاق الذكاء الاصطناعي! هذا الأسبوع نتناول مجموعة من الموضوعات المهمة في مجال الذكاء الاصطناعي، بدءاً من نشر نماذج الرؤيا واللغة الداخلية لمعالجة الوثائق على نطاق واسع، مروراً بمناقشة مدى تقدم نماذج o1 من OpenAI في حل المشكلات البشرية، ووصولاً إلى تقنيات جديدة في التعلم المشرف والمراجعة المدعومة بالبيانات. كما نستعرض دليلًا عمليًا لبناء أنظمة الوكلاء المتعددة باستخدام مكتبة Smolagents، بالإضافة إلى نهج فعّال لتطوير النماذج بميزانيات محدودة من قبل DeepSeek R1. نشر نموذج رؤيا اللغة الداخلي لتحليل الملايين من الوثائق في مقاله الأسبوعي، يشرح جيريمي أرانسيو كيفية نشر نموذج رؤيا اللغة الداخلي Qwen-2.5-VL لاستخراج البيانات الهيكلية من الوثائق. استخدم أرانسيو vLLM لتحقيق الاستدلال الفعال وAWS Batch مع EC2 لتدبير خط الأنابيب المعالجة، مما يحل مشكلات التكلفة وأمن البيانات والموثوقية المرتبطة بخدمات API الخارجية للنماذج اللغوية الكبيرة (LLM). تناول المقال خطوات عملية توضيحية، مثل تحميل التطبيق داخل حاويات Docker/uv وإدارة البنية التحتية لـ AWS عبر Terraform. أظهر تحليل التكلفة أن هذا النهج الذاتي يمكن أن يكون أكثر اقتصاداً من الخدمات الخارجية عند معالجة الوثائق على نطاق واسع. هل نماذج o1 حلت مشكلات المنطق البشري؟ تناول نهدي مقالاً يثير تساؤلات حول مدى تقدم نماذج o1 من OpenAI في حل المشكلات المنطقية البشرية. يعتقد الكاتب أن نماذج o1 قد تم تدريبها باستخدام التعلم التعزيزي مع سلسلة الفكر (Chain-of-Thought - CoT) والأنماط الجائزة، وهي تركز على التحقق خطوة بخطوة. كما يستخدم النموذج طرق البحث على نطاق واسع لإنتاج وتصنيف العديد من المسارات المنطقية عبر الحوسبة الكبيرة. ومع ذلك، يشك الكاتب في أن هذه الطريقة قد "حلت" مشكلات المنطق، مستشهدًا بأبحاث تظهر أن نماذج CoT تفشل في مهام معقدة غير ضمن التوزيع. يرى الكاتب أن هذه الطريقة فعّالة ولكنها مكثفة من الناحية الحوسبة ولا تشبه التفكير البشري. Meta-Booster: إطار عمل جديد للتعلم المشرف قدم شينغانغ لي مقالًا يشرح Meta-Booster، وهو إطار عمل للتعلم المشرف يقوم بدمج تحديثات متزايدة (deltas) من عدة نماذج أساسية (مثل XGBoost، LightGBM، والشبكات العصبية) في كل خطوة من خطوات التعزيز. يتم تحديد أوزان هذه التحديثات باستخدام تقنية التجميع الأقل مربعات على مجموعة التحقق، ويتم العثور على معدل التعلم الأمثل عبر البحث الخطي. أظهرت التجارب على مجموعات بيانات التصنيف والتقدير تحسينات في المقاييس (AUC، LogLoss، MAPE، RMSE) مقارنة بالنماذج الفردية. يوفر Meta-Booster طريقة مرنة لاستخدام قدرات النماذج المختلفة بشكل ديناميكي للحصول على توقعات أفضل. RAG 2.0: تعزيز النماذج اللغوية الكبيرة بمعلومات الويب في الوقت الفعلي شرح سامفاردهان سنغ كيفية تحسين تقنية المراجعة المدعومة بالإنجاز (Retrieval-Augmented Generation - RAG) باستخدام بيانات الويب في الوقت الفعلي. أوضح المقال كيفية تجاوز قيود مجموعات البيانات الثابتة التقليدية للـ RAG من خلال اعتماد نهج ديناميكي يستخدم أدوات جمع البيانات مثل Scrapy. تم التأكيد على LangGraph كإطار عمل لإدارة هذا التدفق المعقد، بدءًا من جمع البيانات وتحويلها إلى متجهات، وتخزينها بفعالية باستخدام FAISS، واسترجاعها وتوليد الرد النهائي. كما تم مناقشة تقنيات تحسين التأخير لضمان الردود الفورية. بناء نظام وكيل متعدد باستخدام مكتبة Smolagents ألف مراد شمسيك دليلاً عمليًا لبناء نظام وكيل متعدد باستخدام مكتبة Smolagents ومخدمات متعددة للبروتوكول السياقي للنموذج (Model Context Protocol - MCP). تناول المقال كيفية إنشاء مخدم MCP مخصص لأعمال الذاكرة بتنسيق Markdown وتكامل مخدم PubMed المسبق من Smithery، باستخدام نموذج Gemini 2.5 Flash Preview LLM. تضمن العملية تفاصيل عن إعداد المخدمات، تكوين Smolagents، وتعريف أدوار الوكلاء المختلفة للذاكرة وتنفيذ المهام. قدم المقال أمثلة على كيفية إنشاء خطط اللياقة البدنية وتحديثها عبر بحوث PubMed واسترجاع المعلومات المخزنة. DeepSeek R1: بحث وتطوير فعّال كبديل للطرق التقليدية كتب نهدي مقالًا يسلط الضوء على نهج DeepSeek R1 في تحقيق أداء قوي بميزانيات محدودة. على عكس العديد من المختبرات المغلقة، قدم DeepSeek R1 شفافية ملحوظة بشأن خوارزمياته وعمليات تدريبه. حقق النموذج أداءً متفوقًا، متجاوزًا مقاييس النماذج الأكبر حجمًا، باستخدام حوالي 6 ملايين دولار فقط مقارنة بملايين الدولارات التي تنفق على نماذج أخرى. تناول المقال تفاصيل تدريب النماذج مثل DeepSeek-R1-Zero (عبر التعلم التعزيزي المباشر على النموذج الأساسي) وDeepSeek-R1 المتطور (باستخدام تبديل SFT وRL مع GRPO)، بما في ذلك تقنيات جديدة للتعلم التعزيزي. آراء الخبراء وتقييم الحدث يبدو أن المقالات الأسبوعية تثير جدلًا كبيرًا بين المهتمين بالذكاء الاصطناعي. بينما يرى البعض أن التطورات الأخيرة مثل Meta-Booster وRAG 2.0 تمثل خطوات مهمة نحو تحسين الأداء والكفاءة، يشك آخرون في قدرة نماذج o1 من OpenAI على حل المشكلات المنطقية البشرية بشكل حقيقي. يؤكد الخبراء على أهمية الجمع بين نهج التدريب الفعّال والبحث المستمر في تقنيات جديدة لتحسين النماذج اللغوية الكبيرة. نبذة تعريفية عن شركة DeepSeek DeepSeek هي شركة ناشئة في مجال الذكاء الاصطناعي تسعى إلى تحقيق تقدم كبير في تطوير النماذج اللغوية الكبيرة بتكلفة أقل بكثير من الشركات الكبرى. تستند استراتيجيتها إلى تحسين الكفاءة والبحث العلمي بدلاً من زيادة الميزانيات بشكل هائل. أثبتت نماذج مثل DeepSeek R1 أنها قادرة على تحقيق أداء متميز بميزانيات محدودة، مما يجعلها مثالًا ملهمًا للشركات الصغيرة والمتوسطة التي تطمح إلى المنافسة في هذا المجال.