HyperAIHyperAI

Command Palette

Search for a command to run...

VL-LTR: تعلُّم التمثيل البصري-اللغوي حسب الفئة للتمييز البصري ذي التوزيع الطويل الذيل

Changyao Tian Wenhai Wang Xizhou Zhu Jifeng Dai Yu Qiao

الملخص

تواجه النماذج القائمة على التعلم العميق صعوبات عند معالجة البيانات ذات التوزيع الطويل الذيل في العالم الحقيقي. وعادةً ما تعتمد الحلول الحالية على استراتيجيات موازنة أو التعلم المن転 (transfer learning) للتعامل مع مشكلة عدم التوازن بين الفئات، وذلك بناءً على الوسائط البصرية. في هذا العمل، نقدم إطارًا للتمييز طويل الذيل البصري-اللغوي، يُسمى VL-LTR، ونُجري دراسات تجريبية لتقييم الفوائد الناتجة عن إدخال الوسيط النصي في التمييز طويل الذيل (LTR). مقارنةً بالطرق الحالية، يتمتع VL-LTR المقترح بالخصائص التالية: (1) يمكن لطريقتنا تعلم تمثيل بصري من الصور، بالإضافة إلى تعلم تمثيل لغوي متناظر من وصفات نصية على مستوى الفئة، والتي تُجمع من الإنترنت وغالبًا ما تكون مشوهة؛ (2) يمكن لطريقتنا الاستفادة الفعالة من التمثيل البصري-اللغوي المُتعلّم لتحسين أداء التمييز البصري، وبشكل خاص بالنسبة للفئات التي تتوفر لها عدد قليل من الصور. كما أجرينا تجارب واسعة النطاق، وحققنا أداءً جديدًا يُعدّ الأفضل حتى الآن على معايير LTR الشهيرة. ومن الملاحظ أن طريقتنا حققت دقة إجمالية قدرها 77.2% على ImageNet-LT، وهي تفوق بشكل كبير أفضل طريقة سابقة بفارق أكثر من 17 نقطة، وتقريبًا تقترب من الأداء السائد الناتج عن التدريب على مجموعة ImageNet الكاملة. يمكن الوصول إلى الكود عبر الرابط التالي: https://github.com/ChangyaoTian/VL-LTR.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VL-LTR: تعلُّم التمثيل البصري-اللغوي حسب الفئة للتمييز البصري ذي التوزيع الطويل الذيل | مستندات | HyperAI