الملخص

يُعدّ أداء النماذج اللغوية الكبيرة (LLMs) والنماذج متعددة الوسائط الكبيرة (LMMs) مرهونًا بشكل كبير بجودة وحجم مجموعات البيانات المستخدمة في التدريب المسبق. تُظهر الدراسات الحديثة أن النماذج متعددة الوسائط الكبيرة التي تُدرَّب على الوثائق الطبيعية، حيث تُدمج الصور والنصوص بشكل متداخل، تتفوّق على النماذج التي تُدرَّب فقط على أزواج الصورة-النص في مجموعة واسعة من المعايير، وذلك بفضل الاستفادة من النماذج المُدرَّبة مسبقًا المتقدمة لضمان التوافق الدلالي، واتساق تسلسل الصور، والاتساق النصي. أما بالنسبة للعربية، فإن نقص مجموعات البيانات متعددة الوسائط عالية الجودة التي تحافظ على هيكل الوثائق قد حدّ من تقدّم الأبحاث في هذا المجال. في هذا البحث، نقدّم نهجنا المُسمى "Wasm" لمعالجة مجموعة بيانات Common Crawl لإنشاء مجموعة بيانات عربية متعددة الوسائط جديدة تتميز بتقديم مخرجات بصيغة Markdown. على عكس المجموعات النصية العربية الحالية التي تركز فقط على استخراج النصوص، يُحافظ نهجنا على سلامة البنية الهيكلية لمحتوى الويب، مع الحفاظ على المرونة لاستخدام البيانات في سيناريوهات التدريب المسبق النصي فقط أو متعددة الوسائط. ونقدّم تحليلًا مقارنًا شاملاً لPipeline لدينا مقارنةً بطرق معالجة البيانات المستخدمة في المجموعات الكبيرة الحالية، مع تسليط الضوء على التشابهات في استراتيجيات التصفية، وتأييد اختيار التصميم المحدد الذي اتخذه الفريق. ولدعم الأبحاث المستقبلية، نُطلق بشكل مفتوح نسخة ممثلة من المجموعة المُعدّة، جنبًا إلى جنب مع Pipeline معالجة البيانات متعددة الوسائط للعربية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

وسم: نموذج لبناء مجموعات نصية متعددة الوسائط منظمة مُتداخلة بالعربية

Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

وسم: نموذج لبناء مجموعات نصية متعددة الوسائط منظمة مُتداخلة بالعربية

Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

وسم: نموذج لبناء مجموعات نصية متعددة الوسائط منظمة مُتداخلة بالعربية

Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters