Command Palette
Search for a command to run...
Zeyu Zhu Kevin Qinghong Lin Mike Zheng Shou

الملخص
أصبحت مقاطع الفيديو التقديمية الأكاديمية وسيلة أساسية للتواصل البحثي، ومع ذلك تظل عملية إنتاجها مرهقة للغاية، حيث تتطلب غالبًا ساعات من التصميم الشريطي، والتسجيل، والتحرير لإنشاء فيديو قصير مدته من 2 إلى 10 دقائق. على عكس الفيديوهات الطبيعية، يواجه إنشاء مقاطع الفيديو التقديمية تحديات مميزة: تتضمن مدخلات من أوراق بحثية، ومعلومات متعددة الوسائط كثيفة (نصوص، رسوم بيانية، جداول)، بالإضافة إلى الحاجة إلى تنسيق قنوات متعددة ومتميزة مثل الشرائح، والنصوص التوضيحية، والصوت، والمحادثة البشرية. وللتغلب على هذه التحديات، نقدّم "PaperTalker"، وهو أول معيار معياري يتألف من 101 ورقة بحثية مزودة بمقاطع فيديو تقديمية أنشأها المؤلفون، إلى جانب الشرائح وبيانات المُقدّم. ونُصمم أربع مقاييس تقييم مخصصة: "تشابه الميتا" (Meta Similarity)، و"PresentArena"، و"PresentQuiz"، و"ذاكرة IP" (IP Memory)، لقياس مدى نقل الفيديو للمعلومات الواردة في الورقة البحثية إلى الجمهور. بناءً على هذه الأساسيات، نقترح "PaperTalker"، وهي أول إطار عمل متعدد الوكلاء لإنشاء مقاطع فيديو تقديمية أكاديمية. حيث يدمج هذا الإطار إنشاء الشرائح مع تحسين تخطيطها الفعّال من خلال خوارزمية جديدة قائمة على البحث الشجري البصري، وربط المؤشر (cursor grounding)، ووضع النص التوضيحي، وتركيب الصوت، وعرض الوجه المتحرك، مع توازي عملية إنشاء الشرائح لتحسين الكفاءة. وقد أظهرت التجارب على مجموعة "Paper2Video" أن مقاطع الفيديو التقديمية الناتجة عن منهجيتنا أكثر ولاءً للمحتوى وفائدة من الطرق القائمة، مما يُمثّل خطوة عملية نحو توليد فيديو أكاديمي تلقائي وجاهز للاستخدام. يُتاح لدينا البيانات، والوكلاء، والكود عبر الرابط: https://github.com/showlab/Paper2Video.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.