HyperAIHyperAI
منذ شهر واحد

آلة الوضع LSTM

Yue Luo; Jimmy Ren; Zhouxia Wang; Wenxiu Sun; Jinshan Pan; Jianbo Liu; Jiahao Pang; Liang Lin
آلة الوضع LSTM
الملخص

لقد لاحظنا أن النتائج الرائدة الحديثة في تقدير وضع الإنسان من صورة واحدة تم تحقيقها بواسطة شبكات العصبونات المتعددة المراحل (CNN). رغم الأداء المتفوق على الصور الثابتة، فإن تطبيق هذه النماذج على الفيديوهات ليس فقط مكثفًا حسابيًا، بل يعاني أيضًا من تدهور الأداء ووميض الصورة. يمكن نسب مثل هذه النتائج غير المثلى بشكل أساسي إلى عدم القدرة على فرض التوافق الهندسي التتابعي، التعامل مع تدهور جودة الصورة الشديد (مثل تشويه الحركة والاخفاء)، وكذلك عدم القدرة على التقاط الارتباط الزمني بين إطارات الفيديو. في هذا البحث، اقترحنا شبكة متكررة جديدة لمعالجة هذه المشكلات. أظهرنا أنه إذا تم فرض نظام مشاركة الأوزان على شبكات العصبونات المتعددة المراحل (CNN)، فيمكن إعادة كتابته كشبكة عصبية متكررة (RNN). هذا الخاصية تنفصل العلاقة بين مراحل الشبكة المتعددة وتؤدي إلى سرعة كبيرة في استدعاء الشبكة للفيديوهات. كما أنها تتيح استخدام وحدات الذاكرة طويلة المدى قصيرة المدى (LSTM) بين إطارات الفيديو. وجدنا أن رNN المعززة بالذاكرة تكون فعالة للغاية في فرض التوافق الهندسي بين الإطارات. كما أنها تعامل بشكل جيد مع تدهور جودة الإدخال في الفيديوهات بينما تستقر الإخراج التتابعي بنجاح. أظهرت التجارب أن نهجنا حقق أداءً أفضل بكثير من الأساليب الرائدة الحالية في تقدير وضع الفيديو على مقعدين كبيرين للمعايير المرجعية لتقدير وضع الفيديو. كما استكشفنا خلايا الذاكرة داخل LSTM وقدمنا رؤى حول سبب الاستفادة من هذه الآلية للتنبؤ بوضع الفيديو القائم على تقدير الوضع.

آلة الوضع LSTM | أحدث الأوراق البحثية | HyperAI