تدريب نماذج الرؤية واللغة من الصفر
في عام 2026، لم تعد مختبرات الذكاء الاصطناعي تدرب نماذج الرؤية واللغة متعددة الوسائط من الصفر، نظراً للكلفة الهائلة للموارد والحسابات المطلوبة لذلك، ولأن النهج الحالي يؤدي غالباً إلى نتائج أقل دقة. بدلاً من ذلك، تعتمد الشركات حالياً على نماذج لغوية نصية مسبقة التدريب، وتقوم بضبطها لإضافة قدرات بصرية، وهو نهج أكثر كفاءة من حيث استهلاك الطاقة والبيانات. تتكون البنية القياسية لنماذج الرؤية واللغة من ثلاثة مكونات رئيسية. أولاً، يعمل العمود الفقري للصورة كنموذج يحوّل الصور الخام إلى متجهات رقمية، حيث يتم استخدام محولات الرؤية (ViT) بدلاً من الشبكات العصبية التقليدية لقدرتها الفائقة على التوسع والمرونة. في هذا النموذج، يتم تثبيت أوزان العمود الفقري للصورة لمنع فرط التخصيص وتوفير التكاليف، حيث تم تدريبه مسبقاً على مجموعات بيانات ضخمة، بينما يُنقل تعليم اللغة والرؤية إلى الطبقات اللاحقة. ثانياً، توجد طبقة المحوّل (Adapter)، وهي الجزء الأكثر تعقيداً في النظام، حيث تقوم بترجمة تمثيلات الصورة النصية غير المدركة إلى نصوص متوافقة مع اللغة. يستخدم هذا النموذج نهج "المحرّر الاستعلامي" (Q-Former) المستوحى من ورقة بحثية BLIP-2. تعمل هذه التقنية على أخذ متجهات الصور الثابتة وتقليصها إلى تسلسل أقصر من الرموز التي تفهمها اللغة من خلال آليات الاهتمام المتقاطع (Cross-Attention)، مما يسمح للنموذج بربط محتوى الصورة بالنصوص دون الحاجة لتمرير النصوص داخل عملية معالجة الصور نفسها. يعتمد التدريب على دوال خسارة مختلفة مثل التباين بين الصورة والنص، أو المطابقة، أو التوليد، حيث يهدف كل منها لضمان توافق دقيق بين المعنى البصري والوصف النصي. أخيراً، تأتي طبقة اللغة، حيث يتم دمج المخرجات من العمود الفقري للصورة والمحوّل مع النموذج اللغوي نفسه. يتم تحويل تمثيلات الصورة عبر طبقة شبكية عصبية بسيطة لتتناسب مع حجم التضمينات المتوقعة من النموذج اللغوي. ثم يتم دمج هذه التضمينات البصرية مع الرموز النصية (مثل تعليمات النظام واستفسار المستخدم) وتسلسل الإجابة المتوقعة، مع استخدام تقنية "التكيّف منخفض الرتبة" (LoRA) لتدريب النموذج. تتيح هذه التقنية تدريب المصفوفات الصغيرة المضافة فقط دون تعديل ملايين معلمات النموذج اللغوي الأصلي، مما يحافظ على معرفته السابقة مع تمكينه من فهم الصور وتوليد نصوص عنها بكفاءة على أجهزة المستهلك. بعد التدريب على مجموعة بيانات صغيرة، يكتسب النموذج القدرة على رؤية الصور ووصفها بدقة، مما يثبت فعالية النهج الحديث الذي يجمع بين نماذج الرؤية المتقدمة والنماذج اللغوية الضخمة عبر طبقات وسيطة ذكية، مع الحفاظ على الكفاءة الحسابية وتقليل المخاطر التقنية.
