HyperAIHyperAI
منذ 8 أيام

التعلم البيبليتى العدواني لتكيف المجال الفيديوي

Yadan Luo, Zi Huang, Zijian Wang, Zheng Zhang, Mahsa Baktashmotlagh
التعلم البيبليتى العدواني لتكيف المجال الفيديوي
الملخص

تُعد تقنيات التكيّف الحدودي، التي تركز على تكييف النماذج بين مجالات ذات توزيعات مختلفة، نادرة الاستكشاف في مجال التعرف على الفيديو، وذلك بسبب التغيرات الكبيرة في البُعد المكاني والزمني بين المجال المصدر (أي مجال التدريب) والمجال الهدف (أي مجال الاختبار). وبسبب ذلك، فإن الدراسات الحديثة في مجال التكيّف البصري التي تعتمد على التعلم العدواني لتوحيد تمثيلات الفيديو المصدرية والهدفية وتعزيز قابلية نقل الميزات ليست فعالة بشكل كبير في سياق الفيديو. ولتجاوز هذه القيود، نقدم في هذا البحث نموذج تصنيف فيديو غير مُعتمد على المجال (domain-agnostic) بدلًا من تعلم تمثيلات ثابتة بالنسبة للمجال (domain-invariant)، ونُقدّم إطار عمل يُسمى التعلم العدواني ثنائي الرسم البياني (Adversarial Bipartite Graph, ABG) الذي يُمثّل تفاعلات المجال المصدر والمجال الهدف مباشرةً من خلال بنية شبكة من نوع الرسم البياني الثنائي. بشكل خاص، يتم أخذ الإطارات المصدرية والهدفية كعُقد متنوعة (heterogeneous vertexes)، بينما تُقاس الحواف التي تربط بين نوعين من العقد بدرجة التقارب بينها. ومن خلال عملية تبادل الرسائل (message-passing)، يُجمّع كل عقدة الميزات من جيرانها المتنوعين، مما يُجبر الميزات القادمة من نفس الفئة على التداخل بشكل متساوٍ. ويؤدي التعرض الصريح للمرشح الفيديو لهذا النوع من التمثيلات عبر الحدود خلال مراحل التدريب والاختبار إلى تقليل التحيّز تجاه البيانات المصنفة من المجال المصدر، ما يُفضي بدوره إلى تحسين التعميم على المجال الهدف. ولتعزيز قدرة النموذج واختبار متانة البنية المقترحة في مهام التحويل الصعبة، نوسع نموذجنا ليعمل في بيئة شبه مُراقبة باستخدام رسم بياني ثنائي آخر على مستوى الفيديو. وأظهرت تجارب واسعة أجريت على أربع معايير (benchmarks) فعالية المنهج المقترح مقارنةً بالأساليب المتطورة (SOTA) في مهمة التعرف على الفيديو.

التعلم البيبليتى العدواني لتكيف المجال الفيديوي | أحدث الأوراق البحثية | HyperAI