منذ 6 أشهر

الملخص

تُقدّم هذه الورقة دراسة مفصلة لتحسين التمثيلات البصرية المُستخدمة في المهام المتعددة بين الرؤية واللغة (VL)، وتطوير نموذج مُحسّن للكشف عن الكائنات يُوفّر تمثيلات مركزية على الكائنات في الصور. مقارنةً بالنموذج الأكثر شيوعًا من نوع \emph{من الأسفل إلى الأعلى ومن الأعلى إلى الأسفل} \cite{anderson2018bottom}، فإن النموذج الجديد أكبر حجمًا، وأُعدّ بشكل أفضل لمهام الرؤية واللغة، وتم تدريبه مسبقًا على مجموعات تدريب كبيرة جدًا تدمج عدة مجموعات بيانات معتمدة علنًا للكشف عن الكائنات. وبذلك، يمكنه إنتاج تمثيلات لعدد أكبر من الكائنات والمعاني البصرية. في حين ركّزت الأبحاث السابقة في مجال الرؤية واللغة بشكل رئيسي على تحسين نماذج دمج الرؤية واللغة، وتركت تحسين نموذج الكشف عن الكائنات دون اهتمام، نُظهر في هذه الدراسة أن الخصائص البصرية تُعدّ عاملًا مؤثرًا بشكل كبير في نماذج الرؤية واللغة. في تجاربنا، نُدخل الخصائص البصرية الناتجة عن النموذج الجديد للكشف عن الكائنات إلى نموذج دمج VL مبني على مُحول (Transformer) يُسمّى \oscar \cite{li2020oscar}، ونستخدم منهجية مُحسّنة \short\ لتدريب النموذج مسبقًا وتحسينه لمهام VL المُستقبلية على نطاق واسع. تُظهر النتائج أن الخصائص البصرية الجديدة تُحسّن بشكل ملحوظ الأداء في جميع مهام VL، وتُحقّق نتائجًا جديدة قياسية على سبعة معايير عامة. وسوف نُطلق النموذج الجديد للكشف عن الكائنات للجمهور.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VinVL: إعادة النظر في التمثيلات البصرية في نماذج الرؤية واللغة

Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VinVL: إعادة النظر في التمثيلات البصرية في نماذج الرؤية واللغة

Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VinVL: إعادة النظر في التمثيلات البصرية في نماذج الرؤية واللغة

Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters