HyperAIHyperAI

Command Palette

Search for a command to run...

إنشاء مقاطع فيديو باستخدام شبكات توليدية متعارضة صامتة واعية بالديناميكية

Sihyun Yu Jihoon Tack Sangwoo Mo Hyunsu Kim Junho Kim Jung-Woo Ha Jinwoo Shin

الملخص

في عصر التعلم العميق، تظل إنشاء مقاطع فيديو طويلة عالية الجودة تحديًا كبيرًا نظرًا لتعقيد الفضاء-الزمن (الزمني) واستمرارية الفيديو. حاولت الدراسات السابقة السابقة نمذجة توزيع الفيديو من خلال تمثيل الفيديو كشبكة ثلاثية الأبعاد من قيم RGB، مما يحد من حجم الفيديو المُنشأ ويتجاهل الديناميات المستمرة. في هذا البحث، وجدنا أن النموذج الناشئ مؤخرًا المتمثل في التمثيلات العصبية الضمنية (INRs)، التي تُحوّل الإشارة المستمرة إلى شبكة عصبية مُعاملة، تُخفّف بشكل فعّال من هذه المشكلة. من خلال استخدام التمثيلات العصبية الضمنية للفيديو، نقترح شبكة توليدية متعارضة ديناميكية واعية (DIGAN)، وهي شبكة توليدية متعارضة جديدة لإنشاء الفيديو. بشكل خاص، نقدّم (أ) مولّد فيديو مبني على INRs يُحسّن ديناميكيات الحركة من خلال معالجة إحداثيات الفضاء والزمن بشكل مختلف، و(ب) مُميّز حركة يُمكنه تحديد الحركات غير الطبيعية بكفاءة دون الحاجة إلى ملاحظة تسلسل كامل من الإطارات الطويلة. نُظهر تفوق DIGAN على مجموعة متنوعة من المجموعات البيانات، مع سلسلة من الخصائص المثيرة للاهتمام، مثل إنشاء فيديو طويل، وتمديد الفيديو (الاستشراف)، وإنشاء فيديو غير تتابعي (غير تلقائي). على سبيل المثال، تحسّن DIGAN على أفضل نتيجة سابقة في مؤشر FVD على مجموعة UCF-101 بنسبة 30.7٪، ويمكن تدريبها على مقاطع فيديو مكونة من 128 إطارًا بدقة 128×128، أي 80 إطارًا أطول من أقصى طول 48 إطارًا الذي كان ممكنًا في أفضل طريقة سابقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp