HyperAIHyperAI
منذ 7 أيام

فكّك عدة خصائص في تسلسلات الفيديو باستخدام العمليات الغاوسية في مُشفّرات التوليد التلقائي التباينية

Sarthak Bhagat, Shagun Uppal, Zhuyun Yin, Nengli Lim
فكّك عدة خصائص في تسلسلات الفيديو باستخدام العمليات الغاوسية في مُشفّرات التوليد التلقائي التباينية
الملخص

نُقدِّم نموذج MGP-VAE (مُشَرَّح التمثيلات متعددة الفصل باستخدام عمليات غاوسيّة في التشفير التلقائي التباعدي)، وهو نموذج تشفير تلقائي تباعدي يستخدم عمليات غاوسيّة (GP) لتمثيل الفضاء الخفي، بهدف التعلّم غير المُراقب لتمثيلات منفصلة في تسلسلات الفيديو. ونُحسِّن الأداء مقارنة بالعمل السابق من خلال إنشاء إطار عمل يُمكّن من فصل عدة خصائص، سواء كانت ثابتة أو ديناميكية. وبشكل خاص، نستخدم الحركات البنيّة الكسرية (fBM) والجسور البنيّة (BB) لفرض بنية ارتباط بين الإطارات في كل قناة مستقلة، ونُظهِر أن تغيير هذه البنية يُمكّن من التقاط عوامل مختلفة للتغير في البيانات. ونُظهر جودة تمثيلاتنا من خلال تجارب على ثلاث مجموعات بيانات متاحة للجمهور، كما نُقيّم التحسين من خلال مهمة تنبؤ بالفيديو. علاوةً على ذلك، نُقدِّم دالة خسارة جديدة تُسمى "الدالة التماثلية" (geodesic loss)، التي تأخذ بعين الاعتبار انحناء متعدّد البيانات لتحسين عملية التعلّم. وتُظهر تجاربنا أن الجمع بين التمثيلات المحسّنة والدالة التماثلية الجديدة يُمكّن نموذج MGP-VAE من تفوقه على النماذج الأساسية في مهام تنبؤ الفيديو.

فكّك عدة خصائص في تسلسلات الفيديو باستخدام العمليات الغاوسية في مُشفّرات التوليد التلقائي التباينية | أحدث الأوراق البحثية | HyperAI