Command Palette
Search for a command to run...
تحسين المُحفِّز متعدد الوسائط: لماذا لا نستفيد من عدة وسائط لنموذج التعلم الآلي متعدد الوسائط؟
Yumin Choi Dongki Kim Jinheon Baek Sung Ju Hwang

الملخص
أظهرت النماذج اللغوية الكبيرة (LLMs) نجاحًا ملحوظًا، كما أن توسعاتها متعددة الوسائط (MLLMs) فتحت آفاقًا جديدة تمتد إلى الصور، والفيديوهات، ووسائط أخرى غير النص. ومع ذلك، وعلى الرغم من هذا التحول، تظل مناهج تحسين المدخلات (prompt optimization)، التي صُممت لتقليل العبء الناتج عن صياغة المدخلات يدويًا مع تحقيق أقصى أداء، مقتصرة على النص فقط، مما يحد من الاستفادة الكاملة من إمكانيات النماذج متعددة الوسائط. مستلهمين من هذه الفجوة، نقدّم مشكلة جديدة تُعرف بتحسين المدخلات متعددة الوسائط، والتي توسّع التعريف السابق لتحسين المدخلات ليشمل الفضاء متعدد الوسائط المُعرّف بواسطة أزواج من المدخلات النصية وغير النصية. ولحل هذه المشكلة، نقترح إطارًا موحدًا يُسمى "مُحسّن المدخلات متعددة الوسائط" (MPO)، الذي لا يُجري تحسينًا مشتركًا للمدخلات متعددة الوسائط من خلال تحديثات تحافظ على التماثل (alignment-preserving)، بل يُوجّه أيضًا عملية اختيار المدخلات المرشحة باستخدام تقييمات سابقة كمعطيات أولية (priors) في استراتيجية اختيار تعتمد على منهجية بايزية (Bayesian-based selection). وقد أظهرت تجارب واسعة النطاق عبر وسائط متنوعة تتجاوز النص، مثل الصور، والفيديوهات، وحتى الجزيئات، أن MPO يتفوّق على أبرز مناهج التحسين القائمة على النص فقط، مُثبتًا أن تحسين المدخلات متعددة الوسائط يُعد خطوة حاسمة لتحقيق الإمكانات الكاملة للنماذج اللغوية الكبيرة متعددة الوسائط (MLLMs).
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.