وسم: نموذج لبناء مجموعات نصية متعددة الوسائط منظمة مُتداخلة بالعربية
Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

الملخص
يُعدّ أداء النماذج اللغوية الكبيرة (LLMs) والنماذج متعددة الوسائط الكبيرة (LMMs) مرهونًا بشكل كبير بجودة وحجم مجموعات البيانات المستخدمة في التدريب المسبق. تُظهر الدراسات الحديثة أن النماذج متعددة الوسائط الكبيرة التي تُدرَّب على الوثائق الطبيعية، حيث تُدمج الصور والنصوص بشكل متداخل، تتفوّق على النماذج التي تُدرَّب فقط على أزواج الصورة-النص في مجموعة واسعة من المعايير، وذلك بفضل الاستفادة من النماذج المُدرَّبة مسبقًا المتقدمة لضمان التوافق الدلالي، واتساق تسلسل الصور، والاتساق النصي. أما بالنسبة للعربية، فإن نقص مجموعات البيانات متعددة الوسائط عالية الجودة التي تحافظ على هيكل الوثائق قد حدّ من تقدّم الأبحاث في هذا المجال. في هذا البحث، نقدّم نهجنا المُسمى "Wasm" لمعالجة مجموعة بيانات Common Crawl لإنشاء مجموعة بيانات عربية متعددة الوسائط جديدة تتميز بتقديم مخرجات بصيغة Markdown. على عكس المجموعات النصية العربية الحالية التي تركز فقط على استخراج النصوص، يُحافظ نهجنا على سلامة البنية الهيكلية لمحتوى الويب، مع الحفاظ على المرونة لاستخدام البيانات في سيناريوهات التدريب المسبق النصي فقط أو متعددة الوسائط. ونقدّم تحليلًا مقارنًا شاملاً لPipeline لدينا مقارنةً بطرق معالجة البيانات المستخدمة في المجموعات الكبيرة الحالية، مع تسليط الضوء على التشابهات في استراتيجيات التصفية، وتأييد اختيار التصميم المحدد الذي اتخذه الفريق. ولدعم الأبحاث المستقبلية، نُطلق بشكل مفتوح نسخة ممثلة من المجموعة المُعدّة، جنبًا إلى جنب مع Pipeline معالجة البيانات متعددة الوسائط للعربية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.