الملخص

الاتباع التعليمات يُعدّ أمرًا حاسمًا في النماذج اللغوية الكبيرة المعاصرة. ومع ذلك، عند توسيع هذا المفهوم إلى البيئات متعددة الوسائط، يعاني غالبًا من عدم التوافق بين التعليمات النصية المحددة والمناطق المحلية المستهدفة في الصورة. ولتحقيق اتباع تعليمات متعددة الوسائط أكثر دقة ودقة، نقدّم نموذجًا بصريًا جديدًا مُوجَّهًا بالتعليمات يُسمى "القناع البصري الموجه بالتعليمات" (IVM)، وهو نموذج متعدد الاستخدامات للربط البصري، يتوافق مع مجموعة متنوعة من النماذج متعددة الوسائط، مثل النماذج اللغوية المتعددة الوسائط (LMM) ونماذج الروبوتات. من خلال إنشاء قناع بصري للمناطق غير ذات صلة بالتعليمات، يمكن للنماذج متعددة الوسائط المُعززة بـ IVM التركيز فعّالًا على المناطق الصورية ذات الصلة بالمهام، مما يُحسّن التوافق مع التعليمات المعقدة. وبشكل خاص، قمنا بتصميم نموذج لتصنيع بيانات القناع البصري، وتم إنشاء مجموعة بيانات تُسمى IVM-Mix-1M تحتوي على مليون زوج من الصور والتعليمات. كما قدمنا تقنية تعلّم جديدة تُسمى "التعلم المراقب الموزون بالمحكم" (DWSL) لتدريب مُحسّن لـ IVM، تُعطي أولوية للعينات عالية الجودة من البيانات. أظهرت النتائج التجريبية في مهام متعددة الوسائط العامة مثل الاستجابة للأسئلة حول الصور (VQA) والتحكم في الروبوتات المُدمجة، تعددية استخدامات IVM، الذي يعمل كأداة جاهزة للتركيب، ويعزز بشكل كبير أداء مجموعة متنوعة من النماذج متعددة الوسائط، ويحقق نتائج جديدة في صدارة المجال عبر معايير متعددة الوسائط الصعبة. يتوفر الكود والنموذج والبيانات على الرابط: https://github.com/2toinf/IVM.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

التوجيه بالتعليمات للإخفاء البصري

Jinliang Zheng Jianxiong Li Sijie Cheng Yinan Zheng Jiaming Li Jihao Liu Yu Liu Jingjing Liu Xianyuan Zhan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التوجيه بالتعليمات للإخفاء البصري

Jinliang Zheng Jianxiong Li Sijie Cheng Yinan Zheng Jiaming Li Jihao Liu Yu Liu Jingjing Liu Xianyuan Zhan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التوجيه بالتعليمات للإخفاء البصري

Jinliang Zheng Jianxiong Li Sijie Cheng Yinan Zheng Jiaming Li Jihao Liu Yu Liu Jingjing Liu Xianyuan Zhan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters