HyperAIHyperAI
منذ 18 أيام

WIT: مجموعة بيانات صور ونصوص مستندة إلى ويكيبيديا للتعلم الآلي متعدد الوسائط متعدد اللغات

Krishna Srinivasan, Karthik Raman, Jiecao Chen, Michael Bendersky, Marc Najork
WIT: مجموعة بيانات صور ونصوص مستندة إلى ويكيبيديا للتعلم الآلي متعدد الوسائط متعدد اللغات
الملخص

لقد أدى التطور المهم الناتج عن تقنيات التعلم العميق للتمثيل والتدريب المسبق إلى تحسينات كبيرة في الأداء عبر مهام اللغة الطبيعية (NLP) والبحث المعلوماتي (IR) والرؤية الحاسوبية. تهدف تقنيات النمذجة متعددة الوسائط إلى الاستفادة من مجموعات بيانات ضخمة عالية الجودة في مجال الصورة واللغة لتعلم معلومات مكملة (بين وسائط الصورة والنص). في هذه الورقة، نقدم مجموعة بيانات "ويبينديا للصورة والنص" (WIT) (https://github.com/google-research-datasets/wit) لتحسين دعم التعلم متعدد الوسائط والمتعدد اللغات. تتكوّن WIT من مجموعة مختارة من 37.6 مليون مثال صورة-نص غنية بالكائنات، تشمل 11.5 مليون صورة فريدة موزعة على 108 لغات ويبينديا. وتكمن قوتها في حجمها الكبير، مما يجعلها مناسبة كمجموعة بيانات للتدريب المسبق على النماذج متعددة الوسائط، كما نوضح من خلال تطبيقها على مهام لاحقة مثل استرجاع الصور والنصوص. تتمتع WIT بأربعة مزايا رئيسية وفريدة. أولاً، تعد WIT أكبر مجموعة بيانات متعددة الوسائط من حيث عدد أمثلة الصورة والنص، بثلاثة أضعاف حجم المجموعات السابقة (في وقت كتابة هذا البحث). ثانيًا، تتميز WIT بكونها متعددة اللغات بشكل هائل (وهي الأولى من نوعها)، وتغطي أكثر من 100 لغة (بحيث يتوفر لكل لغة على الأقل 12 ألف مثال)، وتقدم نصوصًا متعددة اللغات لعدد كبير من الصور. ثالثًا، تمثل WIT مجموعة أكثر تنوعًا من المفاهيم والكائنات الواقعية مقارنة بما تغطيه المجموعات السابقة. وأخيرًا، توفر WIT مجموعة اختبار واقعية صعبة للغاية، كما نوضح تجريبيًا باستخدام مهمة استرجاع الصور والنصوص كمثال.

WIT: مجموعة بيانات صور ونصوص مستندة إلى ويكيبيديا للتعلم الآلي متعدد الوسائط متعدد اللغات | أحدث الأوراق البحثية | HyperAI