HyperAIHyperAI
منذ شهر واحد

تفكيك الحركة والمحتوى للتنبؤ بمتتاليات الفيديو الطبيعية

Ruben Villegas; Jimei Yang; Seunghoon Hong; Xunyu Lin; Honglak Lee
تفكيك الحركة والمحتوى للتنبؤ بمتتاليات الفيديو الطبيعية
الملخص

نقترح شبكة عصبية عميقة للتنبؤ بالإطارات المستقبلية في تسلسلات الفيديو الطبيعية. لمعالجة التطور المعقد للبكسلات في الفيديوهات بشكل فعال، نقترح تفكيك الحركة والمحتوى، وهما المكونان الرئيسيان اللذان يولدان الديناميكيات في الفيديوهات. يتم بناء نموذجنا على أساس شبكة العصبيات التلافيفية المشفرة-المفككة (Encoder-Decoder Convolutional Neural Network) وشبكة LSTM التلافيفية (Convolutional LSTM) للتنبؤ على مستوى البكسل، والتي تلتقط بشكل مستقل التخطيط المكاني لصورة والديناميكيات الزمنية المقابلة. من خلال نمذجة الحركة والمحتوى بشكل مستقل، يُصبح التنبؤ بالإطار التالي مسألة تحويل الخصائص المستخرجة للمحتوى إلى محتوى الإطار التالي بواسطة الخصائص الحركية المحددة، مما يبسط مهمة التنبؤ. يمكن تدريب نموذجنا بشكل شامل عبر عدة خطوات زمنية، ويتعلم بصفة طبيعية تفكيك الحركة والمحتوى دون الحاجة إلى تدريب منفصل. قمنا بتقييم هندسة الشبكة المقترحة على مقاطع فيديو لأنشطة البشر باستخدام مجموعات البيانات KTH وWeizmann action وUCF-101. أظهرنا أداءً رائدًا عند مقارنته بالتقنيات الحديثة. حسب علم us، هذه هي أول هندسة شبكة قابلة للتدريب بشكل شامل مع فصل الحركة والمحتوى لنمذجة الديناميكيات الزمانية-المكانية للتنبؤ المستقبلي على مستوى البكسل في الفيديوهات الطبيعية.请注意,"us" 在最后一句中可能是指作者们自己,因此在阿拉伯语翻译中可以改为 "حسب علم الباحثين" 或者 "حسب علم الفريق"،以更好地反映原文的意思。以下是调整后的版本:حسب علم الباحثين، هذه هي أول هندسة شبكة قابلة للتدريب بشكل شامل مع فصل الحركة والمحتوى لنمذجة الديناميكيات الزمانية-المكانية للتنبؤ المستقبلي على مستوى البكسل في الفيديوهات الطبيعية.