HyperAIHyperAI
منذ 11 أيام

التوجيه بالتعليمات للإخفاء البصري

Jinliang Zheng, Jianxiong Li, Sijie Cheng, Yinan Zheng, Jiaming Li, Jihao Liu, Yu Liu, Jingjing Liu, Xianyuan Zhan
التوجيه بالتعليمات للإخفاء البصري
الملخص

الاتباع التعليمات يُعدّ أمرًا حاسمًا في النماذج اللغوية الكبيرة المعاصرة. ومع ذلك، عند توسيع هذا المفهوم إلى البيئات متعددة الوسائط، يعاني غالبًا من عدم التوافق بين التعليمات النصية المحددة والمناطق المحلية المستهدفة في الصورة. ولتحقيق اتباع تعليمات متعددة الوسائط أكثر دقة ودقة، نقدّم نموذجًا بصريًا جديدًا مُوجَّهًا بالتعليمات يُسمى "القناع البصري الموجه بالتعليمات" (IVM)، وهو نموذج متعدد الاستخدامات للربط البصري، يتوافق مع مجموعة متنوعة من النماذج متعددة الوسائط، مثل النماذج اللغوية المتعددة الوسائط (LMM) ونماذج الروبوتات. من خلال إنشاء قناع بصري للمناطق غير ذات صلة بالتعليمات، يمكن للنماذج متعددة الوسائط المُعززة بـ IVM التركيز فعّالًا على المناطق الصورية ذات الصلة بالمهام، مما يُحسّن التوافق مع التعليمات المعقدة. وبشكل خاص، قمنا بتصميم نموذج لتصنيع بيانات القناع البصري، وتم إنشاء مجموعة بيانات تُسمى IVM-Mix-1M تحتوي على مليون زوج من الصور والتعليمات. كما قدمنا تقنية تعلّم جديدة تُسمى "التعلم المراقب الموزون بالمحكم" (DWSL) لتدريب مُحسّن لـ IVM، تُعطي أولوية للعينات عالية الجودة من البيانات. أظهرت النتائج التجريبية في مهام متعددة الوسائط العامة مثل الاستجابة للأسئلة حول الصور (VQA) والتحكم في الروبوتات المُدمجة، تعددية استخدامات IVM، الذي يعمل كأداة جاهزة للتركيب، ويعزز بشكل كبير أداء مجموعة متنوعة من النماذج متعددة الوسائط، ويحقق نتائج جديدة في صدارة المجال عبر معايير متعددة الوسائط الصعبة. يتوفر الكود والنموذج والبيانات على الرابط: https://github.com/2toinf/IVM.

التوجيه بالتعليمات للإخفاء البصري | أحدث الأوراق البحثية | HyperAI