HyperAIHyperAI
منذ 11 أيام

2BiVQA: تقييم جودة الفيديو القائم على ثنائي LSTM ثنائي الاتجاه لفيديوهات المحتوى الذي ينشئه المستخدمون

Ahmed Telili, Sid Ahmed Fezza, Wassim Hamidouche, Hanene F. Z. Brachemi Meftah
2BiVQA: تقييم جودة الفيديو القائم على ثنائي LSTM ثنائي الاتجاه لفيديوهات المحتوى الذي ينشئه المستخدمون
الملخص

في الآونة الأخيرة، مع الانتشار المتنامِي للأجهزة المحمولة ومنصات مشاركة الفيديوهات (مثل يوتيوب، فيسبوك، تيك توك، وتويتش)، أصبح محتوى المستخدمين المُنشأ (UGC) شائعًا بشكل متزايد، ويعتبر حاليًا جزءًا كبيرًا من حركة المرور المتعددة الوسائط على الإنترنت. على عكس مقاطع الفيديو المهنية التي تُنتجها مخرجات ومحترفو التصوير، غالبًا ما تحتوي مقاطع UGC على تشوهات حقيقية متعددة، تُدخل عادةً أثناء التصوير والمعالجة من قبل مستخدمين غير خبراء. يُعد تقييم جودة مقاطع UGC أمرًا بالغ الأهمية لتحسين ورصد معالجتها على منصات الاستضافة، مثل التشفير والتحويل والتوصيل. ومع ذلك، فإن تقييم الجودة العمياء (Blind Quality Prediction) لمقاطع UGC يُعد تحديًا كبيرًا، نظرًا لعدم معرفة طبيعة التدهور في هذه المقاطع، وتنوعها الكبير، بالإضافة إلى عدم توفر مرجع نقي (pristine reference). ولذلك، في هذه الورقة البحثية، نقترح نموذجًا دقيقًا وفعالًا لتقييم جودة الفيديو العمياء (BVQA) مخصصًا لمقاطع UGC، ونسميه 2BiVQA، أي تقييم جودة الفيديو ذا LSTM ثنائي الاتجاه المزدوج. يتكوّن مقياس 2BiVQA من ثلاثة أقسام رئيسية: شبكة عصبية تلافيفية مُدرّبة مسبقًا (CNN) لاستخراج ميزات تمييزية من مقاطع الصور، والتي تُقدَّم بعدها إلى شبكتين عصبيتين تكرارية (RNN) لتنفيذ التجميع المكاني والزمني. وبشكل خاص، نستخدم شبكتين من نوع LSTM ثنائي الاتجاه (Bi-LSTM)، حيث تُستخدم الأولى لالتقاط الاعتماديات القصيرة المدى بين مقاطع الصور، بينما تُستخدم الثانية لالتقاط الاعتماديات الطويلة المدى بين الإطارات، بهدف أخذ تأثير الذاكرة الزمنية بعين الاعتبار. أظهرت النتائج التجريبية على مجموعات بيانات حديثة كبيرة الحجم لـ VQA الخاصة بمقاطع UGC أن نموذج 2BiVQA يحقق أداءً عاليًا بتكلفة حسابية أقل مقارنةً بأغلب النماذج الحالية المتقدمة في مجال تقييم جودة الفيديو. تم إتاحة الشفرة المصدرية لمقياس 2BiVQA للجمهور عبر الرابط التالي: https://github.com/atelili/2BiVQA

2BiVQA: تقييم جودة الفيديو القائم على ثنائي LSTM ثنائي الاتجاه لفيديوهات المحتوى الذي ينشئه المستخدمون | أحدث الأوراق البحثية | HyperAI