HyperAIHyperAI
منذ 11 أيام

FAST-VQA: تقييم فعّال للجودة النهائية للفيديو باستخدام عينات الجُزَر

Haoning Wu, Chaofeng Chen, Jingwen Hou, Liang Liao, Annan Wang, Wenxiu Sun, Qiong Yan, Weisi Lin
FAST-VQA: تقييم فعّال للجودة النهائية للفيديو باستخدام عينات الجُزَر
الملخص

تُعد الطرق الحالية لتقييم جودة الفيديو العميقة (VQA) عادةً ذات تكلفة حسابية عالية عند تقييم مقاطع الفيديو عالية الدقة. وتُعيق هذه التكلفة إمكانية تعلم تمثيلات أفضل مرتبطة بجودة الفيديو من خلال التدريب المتكامل (end-to-end). وعادةً ما تُعتمد الطرق الحالية على عينات بسيطة لتقليل التكلفة الحسابية، مثل التصغير والقص. ومع ذلك، فإن هذه الطرق تُدمّر بوضوح المعلومات المرتبطة بالجودة في الفيديو، وبالتالي فهي ليست مثالية لتعلم تمثيلات جيدة لـ VQA. ولهذا، هناك حاجة ملحة لتصميم.scheme جديد لاستخراج العينات يحافظ على جودة الفيديو. في هذا البحث، نقترح طريقة استخراج العينات الشبكية الصغيرة (GMS)، التي تسمح بمراعاة الجودة المحلية من خلال أخذ عينات من المربعات بحلّها الأصلي، وتغطي الجودة العالمية من خلال العلاقات السياقية باستخدام مربعات صغيرة مستخرجة على شكل شبكات منتظمة. وتُلصق هذه المربعات الصغيرة وتُتماشى زمنياً، وتُسمى "أجزاء" (fragments). ونُنشئ كذلك شبكة انتباه الأجزاء (FANet) المصممة خصيصاً لاستقبال هذه الأجزاء كمدخلات. وتشكل الأجزاء وFANet معًا النموذج المقترح، المسمى "Transformer الأجزاء العينية لتقييم جودة الفيديو" (FAST-VQA)، والذي يُمكّن من تقييم عميق فعّال ومتكامل للجودة، ويدرّس تمثيلات فعّالة مرتبطة بجودة الفيديو. ويُحسّن دقة النموذج المُتقدم بنسبة تقارب 10%، مع تقليل عدد العمليات الحسابية (FLOPs) بنسبة 99.5% عند تقييم مقاطع فيديو عالية الدقة بجودة 1080P. كما يمكن نقل التمثيلات المرتبطة بجودة الفيديو التي تم تعلمها حديثًا إلى مجموعات بيانات VQA الأصغر، مما يعزز الأداء في هذه السياقات. تُظهر التجارب الواسعة أداءً ممتازًا لـ FAST-VQA على مدخلات بدرجات دقة مختلفة مع الحفاظ على الكفاءة العالية. ونُنشر الكود الخاص بنا على الرابط: https://github.com/timothyhtimothy/FAST-VQA.

FAST-VQA: تقييم فعّال للجودة النهائية للفيديو باستخدام عينات الجُزَر | أحدث الأوراق البحثية | HyperAI