المحولات المجمدة في النماذج اللغوية تكون فعّالة كطبقات مشفرة بصرية

تكشف هذه الورقة أن النماذج اللغوية الكبيرة (LLMs)، على الرغم من تدريبها فقط على بيانات نصية، تُظهر قدرة مدهشة على ترميز المهام البصرية الخالصة في غياب اللغة. وبشكل أكثر إثارة للاهتمام، يمكن تحقيق ذلك باستخدام استراتيجية بسيطة ولكنها لم تُنتبه إليها سابقًا: استخدام كتلة محول (transformer) متجمدة من النماذج اللغوية الكبيرة المُدرَّبة مسبقًا كطبقة ترميز أساسية لمعالجة رموز بصرية مباشرة. تُمكّن هذه الدراسة من توسيع حدود الاستفادة من النماذج اللغوية الكبيرة في المهام الحاسوبية البصرية، مبتعدةً بشكل كبير عن الممارسات التقليدية التي تتطلب غالبًا بيئة متعددة الوسائط (vision-language) مع مدخلات أو مخرجات أو دعوات لغوية مرتبطة بها. نُظهر أن نهجنا يعزز الأداء باستمرار عبر مجموعة متنوعة من المهام، تشمل مهام التعرف البصري الخالص ثنائي وثلاثي الأبعاد (مثل تصنيف الصور وسحابات النقاط)، ومهام نمذجة الزمن (مثل التعرف على الحركات)، ومهام غير دلالية (مثل توقع الحركة)، ومهام متعددة الوسائط (مثل الإجابة على أسئلة بصرية ثنائية وثلاثية الأبعاد واسترجاع الصور والنصوص). تمثل هذه التحسينات ظاهرة عامة، وقابلة للتطبيق على أنواع مختلفة من النماذج اللغوية الكبيرة (مثل LLaMA وOPT) وعلى كتل مختلفة من محولات LLM. كما نقترح فرضية التصفية المعلوماتية لتفسير فعالية النماذج اللغوية الكبيرة المُدرَّبة مسبقًا في الترميز البصري: حيث تميّز كتل المحولات المُدرَّبة مسبقًا بين الرموز البصرية المُفيدة، وتكثّف تأثيرها. ويُدعم هذا الفرض بالتجربة من خلال ملاحظة أن نشاط الميزات، بعد التدريب باستخدام كتل محولات LLM، يُظهر تركيزًا أقوى على المناطق ذات الصلة. نأمل أن تُلهم هذه الدراسة منظورًا جديدًا لاستخدام النماذج اللغوية الكبيرة، وتساهم في تعميق فهمنا للآليات الكامنة وراءها. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/ziqipang/LM4VisualEncoding.