HyperAIHyperAI
منذ 2 أشهر

โมดูลการเปลี่ยนแปลงทางเวลาแบบเกตที่สามารถเรียนรู้ได้สำหรับการเติมภาพวิดีโออย่างลึกซึ้ง 注意:您要求的是阿拉伯语翻译,但提供的翻译是泰语。以下是正确的阿拉伯语翻译: وحدة التحول الزمني القابلة للتعلم مع البوابة لملء الفيديو العميق

Ya-Liang Chang; Zhe Yu Liu; Kuan-Ying Lee; Winston Hsu
โมดูลการเปลี่ยนแปลงทางเวลาแบบเกตที่สามารถเรียนรู้ได้สำหรับการเติมภาพวิดีโออย่างลึกซึ้ง
注意:您要求的是阿拉伯语翻译,但提供的翻译是泰语。以下是正确的阿拉伯语翻译:
وحدة التحول الزمني القابلة للتعلم مع البوابة لملء الفيديو العميق
الملخص

كيفية استخدام المعلومات الزمنية بكفاءة لاستعادة الفيديوهات بطريقة متسقة هي المشكلة الرئيسية في مشاكل تكميل الفيديو. حققت الشبكات العصبية التقليدية ثنائية الأبعاد (2D CNNs) أداءً جيدًا في تكميل الصور، لكنها غالبًا ما تؤدي إلى نتائج زمنية غير متسقة حيث تتلاطم الإطارات عند تطبيقها على الفيديوهات (راجع https://www.youtube.com/watch?v=87Vh1HDBjD0&list=PLPoVtv-xp_dL5uckIzz1PKwNjg1yI0I94&index=1)؛ يمكن للشبكات العصبية ثلاثية الأبعاد (3D CNNs) التقاط المعلومات الزمنية ولكنها معقدة حسابيًا وصعبة التدريب. في هذا البحث، نقدم مكونًا جديدًا يُسمى "الوحدة الزمنية المتحركة القابلة للتعلم" (Learnable Gated Temporal Shift Module - LGTSM) لموديلات تكميل الفيديو التي يمكن أن تعالج بشكل فعال أقنعة الفيديو العشوائية دون إضافة معلمات من الالتفافات ثلاثية الأبعاد. تم تصميم الوحدة LGTSM بحيث تتيح للالتفافات ثنائية الأبعاد الاستفادة من الإطارات المجاورة بكفاءة أكبر، وهو أمر حاسم لتكميل الفيديو. بتحديد، في كل طبقة، تتعلم الوحدة LGTSM تحويل بعض القنوات إلى جيرانها الزمنيين بحيث يمكن تعزيز الالتفافات ثنائية الأبعاد لمعالجة المعلومات الزمنية. وفي الوقت نفسه، يتم تطبيق الالتفاف المحدد بالبوابة على الطبقة لاكتشاف المناطق المقنعة التي تكون ضارة للالتفافات التقليدية. على مجموعة بيانات FaceForensics و Free-form Video Inpainting (FVI)، يحقق نموذجنا أفضل النتائج الحالية باستخدام ببساطة 33٪ فقط من المعلمات والوقت المستغرق للإدراك.

โมดูลการเปลี่ยนแปลงทางเวลาแบบเกตที่สามารถเรียนรู้ได้สำหรับการเติมภาพวิดีโออย่างลึกซึ้ง 注意:您要求的是阿拉伯语翻译,但提供的翻译是泰语。以下是正确的阿拉伯语翻译: وحدة التحول الزمني القابلة للتعلم مع البوابة لملء الفيديو العميق | أحدث الأوراق البحثية | HyperAI