منذ 8 أشهر

الملخص

يحظى التعلم متعدد الوسائط على بيانات الفيديو والنص باهتمام متزايد من العديد من الباحثين في مهام بحثية مختلفة، مثل استرجاع الفيديو من النص (text-to-video retrieval)، واسترجاع النص من الفيديو (video-to-text retrieval)، ووصف الفيديو (video captioning). رغم اقتراح العديد من الخوارزميات لهذه المهام الصعبة، فإن معظمها تم تطويرها باستخدام مجموعات بيانات باللغة الإنجليزية. على الرغم من أن اللغة الإندونيسية تعد واحدة من أكثر اللغات انتشارًا في العالم، إلا أن التقدم البحثي في مجال الفيديو-النص متعدد الوسائط مع الجمل الإندونيسية لا يزال قليل الاستكشاف، ربما بسبب غياب مجموعة بيانات مرجعية عامة. لمعالجة هذه المشكلة، قمنا ببناء أول مجموعة بيانات إندونيسية عامة للفيديو والنص عن طريق ترجمة الجمل الإنجليزية من مجموعة بيانات MSVD إلى جمل إندونيسية. ثم قمنا بتدريب نماذج الشبكات العصبية التي تم تطويرها لمجموعة البيانات الإنجليزية للفيديو والنص على ثلاث مهام هي: استرجاع الفيديو من النص، واسترجاع النص من الفيديو، ووصف الفيديو. غالبًا ما استخدمت الطرق الحديثة القائمة على الشبكات العصبية لمهام الفيديو-النص مستخرج خصائص تم تدريبه بشكل أساسي على مجموعة بيانات الرؤية-اللغة الإنجليزية. نظرًا لنقص الموارد المتاحة للتدريب الأولي مع الجمل الإندونيسية بشكل نسبي، فإن قابلية تطبيق هذه الطرق على مجموعتنا من البيانات لا تزال محل تساؤل. لتجاوز نقص موارد التدريب الأولي، طبقنا التعلم النقل عبر اللغات باستخدام مستخرج الخصائص الذي تم تدريبه بشكل أولي على مجموعة البيانات الإنجليزية، ثم قمنا بضبط النماذج الدقيق على مجموعتنا من البيانات الإندونيسية. أظهرت نتائج التجارب لدينا أن هذا الأسلوب يمكن أن يساعد في تحسين الأداء للثلاث مهام على جميع المقاييس. وأخيرًا، نناقش الأعمال المستقبلية المحتملة باستخدام مجموعتنا من البيانات، مما يلهم المزيد من الأبحاث في مجال المهام متعددة الوسائط للفيديو-النص بالإندونيسية. نعتقد أن مجموعتنا من البيانات ونتائج تجاربنا يمكن أن توفر إسهامات قيمة للمجتمع العلمي. ومجموعة البيانات الخاصة بنا متاحة على GitHub.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Willy Fitra Hendria

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Willy Fitra Hendria

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Willy Fitra Hendria

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MSVD-إندونيسية: معيار لمهام الفيديو النصية متعددة الوسائط باللغة الإندونيسية

Willy Fitra Hendria

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MSVD-إندونيسية: معيار لمهام الفيديو النصية متعددة الوسائط باللغة الإندونيسية

Willy Fitra Hendria

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MSVD-إندونيسية: معيار لمهام الفيديو النصية متعددة الوسائط باللغة الإندونيسية

Willy Fitra Hendria

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters