HyperAIHyperAI
منذ 2 أشهر

تدفق المرشح التنبؤي متعدد الشبكات للتعلم غير المشرف على الفيديوهات

Shu Kong; Charless Fowlkes
تدفق المرشح التنبؤي متعدد الشبكات للتعلم غير المشرف على الفيديوهات
الملخص

نقدم إطار العمل المعروف بـ multigrid Predictive Filter Flow (mgPFF)، وهو مخصص للتعلم غير المشرف على الفيديوهات. يقوم mgPFF بأخذ زوج من الإطارات كمدخل وينتج مرشحات لكل بكسل لتشويه (warping) إحدى الإطارات إلى الأخرى. بالمقارنة مع التدفق البصري المستخدم في تشويه الإطارات، فإن mgPFF أكثر قوة في نمذجة الحركة تحت البكسلية ومعالجة التلف (مثل تشتت الحركة). لقد طورنا استراتيجية نمذجة متعددة الشبكات من الخشن إلى الدقيق التي تتجنب الحاجة إلى تعلم مرشحات كبيرة لالتقاط النزوح الكبير. هذا يسمح لنا بتدريب نموذج شديد الصغر (4.6 ميجابايت) يعمل بطريقة تدريجية عبر عدة دقة مع أوزان مشتركة. نقوم بتدريب mgPFF على فيديوهات حرة وغير مشرفة ونظهر أن mgPFF قادر ليس فقط على تقدير التدفق الطويل المدى لإعادة بناء الإطار وكشف انتقالات المشاهد في الفيديو، بل يمكن تعديله بسهولة أيضًا لاستخدامه في تقسيم الأشياء في الفيديو وتتبع الوضع، حيث يتفوق بشكل كبير على أفضل ما تم نشره حتى الآن دون الحاجة إلى استخدام تقنيات معقدة. علاوة على ذلك، بفضل طبيعة mgPFF في التنبؤ بالمرشحات لكل بكسل، لدينا فرصة فريدة لتوضيح كيفية تطور كل بكسل أثناء حل هذه المهام، مما يوفر لنا فهمًا أفضل وأكثر شفافية.

تدفق المرشح التنبؤي متعدد الشبكات للتعلم غير المشرف على الفيديوهات | أحدث الأوراق البحثية | HyperAI