HyperAIHyperAI
منذ 9 أيام

CCVS: تركيب فيديو قابل للتحكم مع الوعي بالسياق

Guillaume Le Moing, Jean Ponce, Cordelia Schmid
CCVS: تركيب فيديو قابل للتحكم مع الوعي بالسياق
الملخص

يُقدّم هذا العرض عَرْضًا لنهج تعليم ذاتي التوجيه لتركيب مقاطع فيديو جديدة من مقاطع قديمة، مع إدخال عدة عناصر جديدة لتحسين الدقة المكانية والواقعية: حيث يُوجَّه عملية التركيب بناءً على معلومات سياقية لضمان الاستمرارية الزمنية، ومعطيات إضافية لتمكين التحكم الدقيق. يعتمد نموذج التنبؤ على نمط تنبؤي ذاتي مزدوج، في الفضاء اللاتنائي لمشغل الترميز التلقائي (autoencoder) لتنبؤ المستقبل، وفي الفضاء الصوري لتحديث المعلومات السياقية، والتي تُستخدم أيضًا لفرض التماسك المكاني-الزماني من خلال وحدة تدفق بصري قابلة للتعلم. ويُستخدم التدريب العدواني للمشغل التلقائي في المجالات البصرية والزمنية لتحسين الواقعية الناتجة عن الخرج بشكل إضافي. كما يُضيف كمّّاش (quantizer) مُدمج بين المشغل الترميزي (encoder) ومحول التنبؤ (transformer) المسؤول عن توقع الإطارات المستقبلية في الفضاء اللاتنائي (ومعاكسه المُدمج بين المحول والمشغل التفكيكي) مرونة أكبر من خلال تمكين آليات بسيطة لمعالجة معلومات إضافية متعددة الأنماط للتحكم في عملية التركيب (مثل عدد قليل من الإطارات النموذجية، أو مسار صوتي، أو مسار في الفضاء الصوري)، كما يأخذ بعين الاعتبار الطبيعة المُحتملة بطبيعتها في المستقبل من خلال السماح بتوقعات متعددة. وقد أظهرت التجارب على تنفيذ النهج المقترح نتائج ممتازة من حيث الجودة الكمية والكمية في مهام متعددة ومقاييس معيارية شائعة.

CCVS: تركيب فيديو قابل للتحكم مع الوعي بالسياق | أحدث الأوراق البحثية | HyperAI