HyperAIHyperAI

Command Palette

Search for a command to run...

التوجيه بالتعليمات للإخفاء البصري

Jinliang Zheng Jianxiong Li Sijie Cheng Yinan Zheng Jiaming Li Jihao Liu Yu Liu Jingjing Liu Xianyuan Zhan

الملخص

الاتباع التعليمات يُعدّ أمرًا حاسمًا في النماذج اللغوية الكبيرة المعاصرة. ومع ذلك، عند توسيع هذا المفهوم إلى البيئات متعددة الوسائط، يعاني غالبًا من عدم التوافق بين التعليمات النصية المحددة والمناطق المحلية المستهدفة في الصورة. ولتحقيق اتباع تعليمات متعددة الوسائط أكثر دقة ودقة، نقدّم نموذجًا بصريًا جديدًا مُوجَّهًا بالتعليمات يُسمى "القناع البصري الموجه بالتعليمات" (IVM)، وهو نموذج متعدد الاستخدامات للربط البصري، يتوافق مع مجموعة متنوعة من النماذج متعددة الوسائط، مثل النماذج اللغوية المتعددة الوسائط (LMM) ونماذج الروبوتات. من خلال إنشاء قناع بصري للمناطق غير ذات صلة بالتعليمات، يمكن للنماذج متعددة الوسائط المُعززة بـ IVM التركيز فعّالًا على المناطق الصورية ذات الصلة بالمهام، مما يُحسّن التوافق مع التعليمات المعقدة. وبشكل خاص، قمنا بتصميم نموذج لتصنيع بيانات القناع البصري، وتم إنشاء مجموعة بيانات تُسمى IVM-Mix-1M تحتوي على مليون زوج من الصور والتعليمات. كما قدمنا تقنية تعلّم جديدة تُسمى "التعلم المراقب الموزون بالمحكم" (DWSL) لتدريب مُحسّن لـ IVM، تُعطي أولوية للعينات عالية الجودة من البيانات. أظهرت النتائج التجريبية في مهام متعددة الوسائط العامة مثل الاستجابة للأسئلة حول الصور (VQA) والتحكم في الروبوتات المُدمجة، تعددية استخدامات IVM، الذي يعمل كأداة جاهزة للتركيب، ويعزز بشكل كبير أداء مجموعة متنوعة من النماذج متعددة الوسائط، ويحقق نتائج جديدة في صدارة المجال عبر معايير متعددة الوسائط الصعبة. يتوفر الكود والنموذج والبيانات على الرابط: https://github.com/2toinf/IVM.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التوجيه بالتعليمات للإخفاء البصري | مستندات | HyperAI