HyperAIHyperAI
منذ 7 أيام

إنشاء مقاطع فيديو باستخدام شبكات توليدية متعارضة صامتة واعية بالديناميكية

Sihyun Yu, Jihoon Tack, Sangwoo Mo, Hyunsu Kim, Junho Kim, Jung-Woo Ha, Jinwoo Shin
إنشاء مقاطع فيديو باستخدام شبكات توليدية متعارضة صامتة واعية بالديناميكية
الملخص

في عصر التعلم العميق، تظل إنشاء مقاطع فيديو طويلة عالية الجودة تحديًا كبيرًا نظرًا لتعقيد الفضاء-الزمن (الزمني) واستمرارية الفيديو. حاولت الدراسات السابقة السابقة نمذجة توزيع الفيديو من خلال تمثيل الفيديو كشبكة ثلاثية الأبعاد من قيم RGB، مما يحد من حجم الفيديو المُنشأ ويتجاهل الديناميات المستمرة. في هذا البحث، وجدنا أن النموذج الناشئ مؤخرًا المتمثل في التمثيلات العصبية الضمنية (INRs)، التي تُحوّل الإشارة المستمرة إلى شبكة عصبية مُعاملة، تُخفّف بشكل فعّال من هذه المشكلة. من خلال استخدام التمثيلات العصبية الضمنية للفيديو، نقترح شبكة توليدية متعارضة ديناميكية واعية (DIGAN)، وهي شبكة توليدية متعارضة جديدة لإنشاء الفيديو. بشكل خاص، نقدّم (أ) مولّد فيديو مبني على INRs يُحسّن ديناميكيات الحركة من خلال معالجة إحداثيات الفضاء والزمن بشكل مختلف، و(ب) مُميّز حركة يُمكنه تحديد الحركات غير الطبيعية بكفاءة دون الحاجة إلى ملاحظة تسلسل كامل من الإطارات الطويلة. نُظهر تفوق DIGAN على مجموعة متنوعة من المجموعات البيانات، مع سلسلة من الخصائص المثيرة للاهتمام، مثل إنشاء فيديو طويل، وتمديد الفيديو (الاستشراف)، وإنشاء فيديو غير تتابعي (غير تلقائي). على سبيل المثال، تحسّن DIGAN على أفضل نتيجة سابقة في مؤشر FVD على مجموعة UCF-101 بنسبة 30.7٪، ويمكن تدريبها على مقاطع فيديو مكونة من 128 إطارًا بدقة 128×128، أي 80 إطارًا أطول من أقصى طول 48 إطارًا الذي كان ممكنًا في أفضل طريقة سابقة.

إنشاء مقاطع فيديو باستخدام شبكات توليدية متعارضة صامتة واعية بالديناميكية | أحدث الأوراق البحثية | HyperAI