MSVD-إندونيسية: معيار لمهام الفيديو النصية متعددة الوسائط باللغة الإندونيسية

يحظى التعلم متعدد الوسائط على بيانات الفيديو والنص باهتمام متزايد من العديد من الباحثين في مهام بحثية مختلفة، مثل استرجاع الفيديو من النص (text-to-video retrieval)، واسترجاع النص من الفيديو (video-to-text retrieval)، ووصف الفيديو (video captioning). رغم اقتراح العديد من الخوارزميات لهذه المهام الصعبة، فإن معظمها تم تطويرها باستخدام مجموعات بيانات باللغة الإنجليزية. على الرغم من أن اللغة الإندونيسية تعد واحدة من أكثر اللغات انتشارًا في العالم، إلا أن التقدم البحثي في مجال الفيديو-النص متعدد الوسائط مع الجمل الإندونيسية لا يزال قليل الاستكشاف، ربما بسبب غياب مجموعة بيانات مرجعية عامة. لمعالجة هذه المشكلة، قمنا ببناء أول مجموعة بيانات إندونيسية عامة للفيديو والنص عن طريق ترجمة الجمل الإنجليزية من مجموعة بيانات MSVD إلى جمل إندونيسية. ثم قمنا بتدريب نماذج الشبكات العصبية التي تم تطويرها لمجموعة البيانات الإنجليزية للفيديو والنص على ثلاث مهام هي: استرجاع الفيديو من النص، واسترجاع النص من الفيديو، ووصف الفيديو. غالبًا ما استخدمت الطرق الحديثة القائمة على الشبكات العصبية لمهام الفيديو-النص مستخرج خصائص تم تدريبه بشكل أساسي على مجموعة بيانات الرؤية-اللغة الإنجليزية. نظرًا لنقص الموارد المتاحة للتدريب الأولي مع الجمل الإندونيسية بشكل نسبي، فإن قابلية تطبيق هذه الطرق على مجموعتنا من البيانات لا تزال محل تساؤل. لتجاوز نقص موارد التدريب الأولي، طبقنا التعلم النقل عبر اللغات باستخدام مستخرج الخصائص الذي تم تدريبه بشكل أولي على مجموعة البيانات الإنجليزية، ثم قمنا بضبط النماذج الدقيق على مجموعتنا من البيانات الإندونيسية. أظهرت نتائج التجارب لدينا أن هذا الأسلوب يمكن أن يساعد في تحسين الأداء للثلاث مهام على جميع المقاييس. وأخيرًا، نناقش الأعمال المستقبلية المحتملة باستخدام مجموعتنا من البيانات، مما يلهم المزيد من الأبحاث في مجال المهام متعددة الوسائط للفيديو-النص بالإندونيسية. نعتقد أن مجموعتنا من البيانات ونتائج تجاربنا يمكن أن توفر إسهامات قيمة للمجتمع العلمي. ومجموعة البيانات الخاصة بنا متاحة على GitHub.