HyperAIHyperAI

Command Palette

Search for a command to run...

رؤية ما وراء الصندوق: التدريب المسبق من البداية إلى النهاية لتعلم التمثيل البصري-اللغوي

Zhicheng Huang Zhaoyang Zeng Yupan Huang Bei Liu Dongmei Fu Jianlong Fu

الملخص

نُجري دراسة حول التعلم المشترك للشبكات العصبية التلافيفية (CNN) والمحولات (Transformer) في سياق التدريب المسبق للرؤية واللغة (VLPT)، الذي يهدف إلى تعلُّم التوافق بين الوسائط من خلال ملايين أزواج الصور والنصوص. تُستخرج الطرق المتطورة حديثًا مناطق صور بارزة وتوافق هذه المناطق مع الكلمات خطوة بخطوة. وبما أن الميزات البصرية القائمة على المناطق تمثل عادةً أجزاءً من الصورة، فإن من الصعب على النماذج الحالية للرؤية واللغة فهم المعاني بشكل كامل من النصوص الطبيعية المرتبطة بها. في هذه الورقة، نُقدّم نموذج SOHO الذي يُمكّن من "الرؤية خارج الصندوق" من خلال اعتماد الصورة الكاملة كمدخل، وتعلم تمثيلات الرؤية واللغة بطريقة نهائية (end-to-end). لا يتطلب SOHO تسميات مربعات حدودية (bounding box)، ما يُمكنه من التنبؤ بسرعة تصل إلى 10 أضعاف مقارنة بالطرق القائمة على المناطق. وبشكل خاص، يتعلم SOHO استخلاص ميزات صورية شاملة ولكن مدمجة من خلال قاموس بصري (VD)، يُسهِّل الفهم بين الوسائط المختلفة. تم تصميم القاموس البصري لتمثيل تصورات بصرية متسقة تعبّر عن معاني متشابهة، ويتم تحديثه بشكل فوري ويُستخدم في مهمة التدريب المسبق المُقترحة لدينا، وهي نمذجة الصورة المُقنعة (Masked Visual Modeling - MVM). أجرينا تجارب على أربع مهام معروفة في مجال الرؤية واللغة، باتباع إعدادات التدريب المسبق القياسية. وبشكل خاص، حقق SOHO مكاسب مطلقة قدرها 2.0% في دقة R@1 على مجموعة بيانات MSCOCO لاسترجاع النصوص (5k test split)، و1.5% في الدقة على مجموعة بيانات NLVR2^22 (test-P split)، و6.7% في الدقة على مجموعة بيانات SNLI-VE (test split)، على التوالي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp