HyperAIHyperAI

Command Palette

Search for a command to run...

VinVL: إعادة النظر في التمثيلات البصرية في نماذج الرؤية واللغة

Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao

الملخص

تُقدّم هذه الورقة دراسة مفصلة لتحسين التمثيلات البصرية المُستخدمة في المهام المتعددة بين الرؤية واللغة (VL)، وتطوير نموذج مُحسّن للكشف عن الكائنات يُوفّر تمثيلات مركزية على الكائنات في الصور. مقارنةً بالنموذج الأكثر شيوعًا من نوع \emph{من الأسفل إلى الأعلى ومن الأعلى إلى الأسفل} \cite{anderson2018bottom}، فإن النموذج الجديد أكبر حجمًا، وأُعدّ بشكل أفضل لمهام الرؤية واللغة، وتم تدريبه مسبقًا على مجموعات تدريب كبيرة جدًا تدمج عدة مجموعات بيانات معتمدة علنًا للكشف عن الكائنات. وبذلك، يمكنه إنتاج تمثيلات لعدد أكبر من الكائنات والمعاني البصرية. في حين ركّزت الأبحاث السابقة في مجال الرؤية واللغة بشكل رئيسي على تحسين نماذج دمج الرؤية واللغة، وتركت تحسين نموذج الكشف عن الكائنات دون اهتمام، نُظهر في هذه الدراسة أن الخصائص البصرية تُعدّ عاملًا مؤثرًا بشكل كبير في نماذج الرؤية واللغة. في تجاربنا، نُدخل الخصائص البصرية الناتجة عن النموذج الجديد للكشف عن الكائنات إلى نموذج دمج VL مبني على مُحول (Transformer) يُسمّى \oscar \cite{li2020oscar}، ونستخدم منهجية مُحسّنة \short\ لتدريب النموذج مسبقًا وتحسينه لمهام VL المُستقبلية على نطاق واسع. تُظهر النتائج أن الخصائص البصرية الجديدة تُحسّن بشكل ملحوظ الأداء في جميع مهام VL، وتُحقّق نتائجًا جديدة قياسية على سبعة معايير عامة. وسوف نُطلق النموذج الجديد للكشف عن الكائنات للجمهور.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VinVL: إعادة النظر في التمثيلات البصرية في نماذج الرؤية واللغة | مستندات | HyperAI