HyperAIHyperAI
منذ 11 أيام

تقييم موحد للجودة في مقاطع الفيديو الواقعية باستخدام تدريب على مجموعات بيانات مختلطة

Dingquan Li, Tingting Jiang, Ming Jiang
تقييم موحد للجودة في مقاطع الفيديو الواقعية باستخدام تدريب على مجموعات بيانات مختلطة
الملخص

تقييم جودة الفيديو (VQA) يُعد مشكلة مهمة في رؤية الحاسوب. غالبًا ما تُلتقط مقاطع الفيديو المستخدمة في التطبيقات الحاسوبية في البيئات الطبيعية (in-the-wild). ونركّز على تقييم جودة هذه المقاطع تلقائيًا، وهي مشكلة صعبة نظرًا لغياب مقاطع المقارنة (المرجعية)، وتعقيد التشوهات، وتنوع محتويات الفيديو. علاوةً على ذلك، تختلف محتويات الفيديو والتشوهات بين مجموعات البيانات الحالية بشكل كبير، مما يؤدي إلى أداء ضعيف للطرق القائمة على البيانات في بيئات التقييم المتقاطعة بين مجموعات البيانات. ولتحسين أداء نماذج تقييم الجودة، نستمد أفكارًا من الإدراك البشري، وخاصة التأثيرات المتعلقة باعتماد الجودة على المحتوى (content dependency) وتأثيرات الذاكرة الزمنية في الجهاز البصري البشري. ولتوفير حل لتحدي التقييم المتقاطع بين مجموعات البيانات، نستكشف استراتيجية تدريب مختلطة باستخدام عدة مجموعات بيانات لتدريب نموذج واحد لـ VQA. يشمل الإطار الموحّد المقترح ثلاث مراحل صريحة: مُقيّم الجودة النسبية، والتحويل غير الخطي، ومحاذاة المقياس الإدراكي المخصص لكل مجموعة بيانات، بهدف التنبؤ المشترك بجودة الفيديو النسبية، والجودة الإدراكية، والجودة الذاتية. أُجريت تجارب على أربع مجموعات بيانات متاحة للجمهور لـ VQA في البيئات الطبيعية، وهي: LIVE-VQC، LIVE-Qualcomm، KoNViD-1k، وCVD2014. وتوّفر النتائج التجريبية دليلًا على فعالية استراتيجية التدريب المختلطة، وتبين الأداء المتفوق للنموذج الموحّد مقارنةً بالنماذج الرائدة في المجال. ولضمان إمكانية إعادة البحث، نُقدّم تنفيذًا باستخدام بايثون (PyTorch) لطريقتنا عبر الرابط: https://github.com/lidq92/MDTVSFA.

تقييم موحد للجودة في مقاطع الفيديو الواقعية باستخدام تدريب على مجموعات بيانات مختلطة | أحدث الأوراق البحثية | HyperAI