HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 14 أيام

وسم: نموذج لبناء مجموعات نصية متعددة الوسائط منظمة مُتداخلة بالعربية

Khalil Hennara Ahmad Bastati Muhammad Hreden Mohamed Motasim Hamed Zeina Aldallal Sara Chrouf Safwan AlModhayan

وسم: نموذج لبناء مجموعات نصية متعددة الوسائط منظمة مُتداخلة بالعربية

الملخص

يُعدّ أداء النماذج اللغوية الكبيرة (LLMs) والنماذج متعددة الوسائط الكبيرة (LMMs) مرهونًا بشكل كبير بجودة وحجم مجموعات البيانات المستخدمة في التدريب المسبق. تُظهر الدراسات الحديثة أن النماذج متعددة الوسائط الكبيرة التي تُدرَّب على الوثائق الطبيعية، حيث تُدمج الصور والنصوص بشكل متداخل، تتفوّق على النماذج التي تُدرَّب فقط على أزواج الصورة-النص في مجموعة واسعة من المعايير، وذلك بفضل الاستفادة من النماذج المُدرَّبة مسبقًا المتقدمة لضمان التوافق الدلالي، واتساق تسلسل الصور، والاتساق النصي. أما بالنسبة للعربية، فإن نقص مجموعات البيانات متعددة الوسائط عالية الجودة التي تحافظ على هيكل الوثائق قد حدّ من تقدّم الأبحاث في هذا المجال. في هذا البحث، نقدّم نهجنا المُسمى "Wasm" لمعالجة مجموعة بيانات Common Crawl لإنشاء مجموعة بيانات عربية متعددة الوسائط جديدة تتميز بتقديم مخرجات بصيغة Markdown. على عكس المجموعات النصية العربية الحالية التي تركز فقط على استخراج النصوص، يُحافظ نهجنا على سلامة البنية الهيكلية لمحتوى الويب، مع الحفاظ على المرونة لاستخدام البيانات في سيناريوهات التدريب المسبق النصي فقط أو متعددة الوسائط. ونقدّم تحليلًا مقارنًا شاملاً لPipeline لدينا مقارنةً بطرق معالجة البيانات المستخدمة في المجموعات الكبيرة الحالية، مع تسليط الضوء على التشابهات في استراتيجيات التصفية، وتأييد اختيار التصميم المحدد الذي اتخذه الفريق. ولدعم الأبحاث المستقبلية، نُطلق بشكل مفتوح نسخة ممثلة من المجموعة المُعدّة، جنبًا إلى جنب مع Pipeline معالجة البيانات متعددة الوسائط للعربية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
وسم: نموذج لبناء مجموعات نصية متعددة الوسائط منظمة مُتداخلة بالعربية | الأوراق البحثية | HyperAI