استناداً إلى 13000 مقطع فيديو، اقترح فريق شي بوكسين بجامعة بكين والحوسبة البايزية إطار عمل لإنشاء فيديو بانورامي يسمى PanoWan، والذي يأخذ في الاعتبار تحرير الفيديو بدون عينة.

يُعد الفيديو البانورامي أحد أهم أشكال محتوى الواقع الافتراضي. فهو مبني على العالم الحقيقي، ويُعزز شعور المستخدم بالتفاعل والتجربة التفاعلية من خلال منظور غامر بزاوية 360 درجة. ويُوفر دعمًا أساسيًا لتطوير الواقع الافتراضي من حيث إنتاج المحتوى، وتطبيقه في الصناعة، وترويجه بين المستخدمين.يعتمد إنتاج الفيديو البانورامي الحالي عادةً على المعدات الاحترافية، مما يحد بشكل كبير من نطاق إنشاء المحتوى.
في السنوات الأخيرة، مع التطور السريع لنماذج الفيديو التوليدية، بدأ الباحثون أيضًا في محاولة تطبيقها في مجال مقاطع الفيديو البانورامية، وبالتالي خفض عتبة إنشاء المحتوى البانورامي، وتعزيز التوسع واسع النطاق لمحتوى الواقع الافتراضي، وحتى المساعدة في بناء عالم افتراضي تفاعلي غامر للغاية.
ومع ذلك، ليس من السهل نقل نماذج إنشاء الفيديو التقليدية إلى المجال البانورامي بكفاءة.التحدي الرئيسي هو أن مقاطع الفيديو البانورامية ومقاطع الفيديو العادية لها اختلافات أساسية في تمثيل الميزات المكانية.على سبيل المثال، يُسبب الإسقاط المستطيلي المتساوي البعد تشوهًا في الصورة في اتجاه خط العرض، ويُسبب الربط الحدودي الطولي انقطاعًا بصريًا ودلاليًا. لذلك، حتى مع تحقيق تقنية تحويل النص إلى فيديو الحالية نتائج ممتازة، يصعب ضمان اتساق وترابط التخطيط المكاني لعناصر المشهد أثناء عملية إنشاء الفيديو البانورامي.
ولمعالجة هذا التحدي الرئيسي،أطلق مختبر استخبارات الكاميرات في جامعة بكين (فريق شي بوكسين) والحوسبة البايزية OpenBayes بشكل مشترك PanoWan، وهو إطار عمل لتوليد مقاطع فيديو بانورامية موجهة بالنص.تستخدم هذه الطريقة بنية وحدات بسيطة وفعّالة للغاية لنقل المُسبقات التوليدية لنموذج تحويل النص إلى فيديو المُدرّب مُسبقًا بسلاسة إلى المجال البانورامي. ولتحقيق ذلك، تُصمّم هذه الطريقة تقنية أخذ عينات مُراعية لخطوط العرض لتقليل تشوّه الصورة الناتج عن الإسقاط المستطيلي المُتساوي البعد بفعالية؛ وفي الوقت نفسه، من خلال استراتيجية إزالة الضوضاء الدلالية بالتناوب وملء الحدود وفك تشفير بكسل تلو الآخر، تُحلّ هذه الطريقة مشكلة عدم الاتساق الدلالي البصري عند حدود خطوط الطول.
بالإضافة إلى ذلك، من أجل تدريب النموذج بشكل فعال،قام فريق البحث ببناء مجموعة بيانات فيديو بانورامية عالية الجودة وواسعة النطاق خصيصًا PanoVid.تحتوي مجموعة البيانات على أكثر من 13000 مقطع فيديو مع أوصاف نصية، يبلغ مجموعها ما يقرب من 1000 ساعة، وتغطي مجموعة متنوعة من المشاهد مثل المناظر الطبيعية ومشاهد الشوارع الحضرية والأنشطة البشرية.
وتظهر النتائج التجريبية بشكل كامل أنلا يحقق PanoWan أفضل أداء حالي في مهمة إنشاء مقاطع فيديو بانورامية من النص فحسب، بل يُظهر أيضًا إمكانيات قوية لتحرير الفيديو بدون لقطة.بدون تدريب إضافي، يمكنه التعامل مع سيناريوهات عملية متعددة مثل تحسين دقة الفيديو البانورامي، والتحرير الدلالي، وتوسيع محتوى الفيديو.

تم نشر ورقة بحثية ذات صلة بعنوان "PanoWan: رفع نماذج توليد الفيديو الانتشاري إلى 360 درجة باستخدام آليات تدرك خطوط العرض/الطول" على arXiv.
لمزيد من الأمثلة، قم بزيارة الصفحة الرئيسية للمشروع:
https://panowan.variantconst.com/

مجموعة بيانات فيديو بانورامية واسعة النطاق PanoVid
لطالما كان نقص مجموعات البيانات المقترنة أحد أهم العوائق أمام تحسين أداء نماذج توليد الفيديو البانورامي. ولحل مشكلة ندرة البيانات،قام فريق البحث ببناء مجموعة بيانات فيديو بانورامية واسعة النطاق متوازنة دلاليًا ومتنوعة المشاهد وعالية الجودة تسمى PanoVid.تجمع مجموعة البيانات هذه بين العديد من موارد الفيديو البانورامي الموجودة، بما في ذلك 360-1M، و360+x، وImagine360، وWEB360، وPanonut360، ومجموعة بيانات فيديو Miraikan 360-degree، ومجموعات بيانات فيديو الواقع الافتراضي الغامرة العامة.
بعد التجميع الأولي، استخدم فريق البحث نموذج Qwen-2.5-VL لإنشاء أوصاف نصية عالية الجودة لمقاطع الفيديو تلقائيًا، ووُسمت مقاطع الفيديو بفئات، مع الاحتفاظ فقط بمقاطع الفيديو بتنسيق الإسقاط المستطيلي (ERP). لاحقًا، لتجنب تكرار المحتوى، اعتمد الفريق استراتيجية إزالة التكرار القائمة على تشابه الوصف، وفحص مقاطع الفيديو بدقة أكبر من خلال سلاسة التدفق البصري والتقييمات الجمالية، مع الاحتفاظ فقط بالمقاطع عالية الجودة في كل فئة.
بعد هذه السلسلة من إجراءات المعالجة الصارمة،تحتوي مجموعة بيانات PanoVid في النهاية على أكثر من 13000 مقطع فيديو.وتبلغ المدة الإجمالية حوالي 944 ساعة، وتغطي مجموعة متنوعة من المشاهد بما في ذلك المناظر الطبيعية ومشاهد الشوارع والأشخاص.

أهم النقاط الفنية في PanoWan: التركيز على خطوط العرض والطول
يستخدم PanoWan نفس إطار عمل تدريب الفيديو مثل نموذج Wan 2.1.الهدف هو نقل نموذج توليد الفيديو إلى المجال البانورامي بأقل قدر من التغييرات، مع الحفاظ على بيانات التوليد السابقة للنموذج الأصلي إلى أقصى حد. لحل مشكلة تشوه الفيديو البانورامي الناتج عن تنسيق ERP،ويعمل فريق البحث بشكل رئيسي على مستويين: خطوط العرض والطول.
في،في اتجاه خط العرض، يستخدم PanoWan أخذ العينات المدركة لخط العرض (LAS) لتخفيف مشكلة تشويه خط العرض في المناطق القطبية.تعمل هذه الطريقة على إعادة رسم توزيع الضوضاء لجعلها تتطابق بشكل أوثق مع خصائص التردد الفعلية للكرة، وبالتالي تقليل تمدد وتشويه الصورة في الاتجاه العرضي بشكل فعال.
اتجاه خط الطول، لحل مشكلة عدم الاستمرارية البصرية والدلالية عند الحدود اليمنى واليسرى للنتائج المولدة.اقترحت PanoWan تقنية إزالة الضوضاء الدلالية الدورانية (RSD) وتقنية فك التشفير المبطن بالبكسل (PPD).يقوم الأول بتوزيع خطأ التماس بالتساوي على خطوط الطول المختلفة من خلال عمليات الدوران في المساحة الكامنة، مما يقلل بشكل كبير من عدم اتساق التحولات الدلالية؛ ويقوم الأخير بتوسيع سياق منطقة التماس، مما يتيح للفكاك النظر في المزيد من المعلومات خارج الحدود أثناء عملية فك التشفير، وتجنب مشكلة تقسيم الحدود على مستوى البكسل بشكل فعال.

يستخدم الشكل أدناه تجربة استئصال لإظهار فعالية آلية خطوط الطول والعرض المقترحة في هذا العمل بشكل بديهي. يوضح الركن العلوي الأيسر من الصورة أنه بعد استخدام طريقة أخذ العينات المراعي لخطوط العرض، أصبحت خطوط السقف وشريط الإضاءة، التي كانت في الأصل عرضة للتشويه الواضح، مستقيمة وطبيعية في المنظور؛ وتجمع الطريقة الكاملة في الركن السفلي الأيمن بين إزالة الضوضاء الدلالية للدوران وملء الحدود وفك تشفير بكسل تلو الآخر لإزالة انقطاع منطقة حدود الصورة بنجاح، ويكون الانتقال سلسًا وطبيعيًا.

عرض تأثير PanoWan
أولًا، هذا هو أبسط فيديو بانورامي لفينسنت. لنلقِ نظرة على التأثير دون مزيد من التفاصيل.
الموضوع: لقطة بانورامية لبركان نشط ينفث دخانًا كثيفًا في سماء غروب الشمس النارية، وجبال مهيبة تُغلفها سحب ضبابية في المقدمة، مما يُضفي تباينًا أخاذًا. تتحرك الكاميرا ببطء، ملتقطةً اتساع الطبيعة وجمالها الآسر.
مُوَجِّه: منظر بانورامي لمدينة سايبربانك مُغطاة بأضواء النيون، حيث تتكشف مطاردة حماسية على طريق سريع متعدد المستويات. سيارة خارقة سوداء لامعة وأنيقة تنطلق بسرعة فائقة عبر الغابة الحضرية، متجاوزةً ناطحات السحاب الضخمة. شاشات متوهجة تُنير المشهد بإعلانات نيون نابضة بالحياة. تلتقط الكاميرا المشهد من زاوية منخفضة مثيرة، مُتتبعةً سرعة السيارة المُذهلة.
موضوع: داخل مقهى ستاربكس صاخب، تجلس شابة بجانب النافذة، تحتسي لاتيه فاخر، منغمسة في قراءة رواية شيقة. يتسلل ضوء الشمس، تاركًا وراءه بريقًا دافئًا على وجهها المتسم بالهدوء. تحيط بها ديكورات خشبية أنيقة، ورائحة القهوة الطازجة، وثرثرة الزبائن. لقطة متوسطة، تُجسد أجواء المقهى النابضة بالحياة.
يمكن أيضًا استخدام PanoWan دون الحاجة إلى إعادة التدريب.تتضمن تطبيقات اللقطات الصفرية إنشاء مقاطع فيديو طويلة، ودقة فائقة، وتحرير دلالي، ومهام توسيع نطاق الفيديو لمقاطع الفيديو البانورامية.
موجه لإنشاء فيديو طويل: غروب الشمس على الشاطئ.
مطالبة دقة الفيديو الفائقة: منظر داخلي بانورامي بزاوية 360 درجة لمخبز حرفي ساحر يعجّ بالنشاط، حيث يُحضّر الخبازون بعناية فائقة الخبز والمعجنات والحلويات المصنوعة يدويًا. رفوف مليئة بالمخبوزات الدافئة، وروائح عطرية تفوح في الهواء، مما يخلق شعورًا بالدفء والراحة والمتعة الطهوية.
موجه التحرير الدلالي: تغيير لون القطار إلى اللون الأحمر.
موجه توسيع الفيديو: لقطة بانورامية لبالونات هواء ساخن ملونة تصعد برشاقة، تحلق فوق حقول خضراء يانعة، تتباين ألوانها الزاهية مع سماء زرقاء شاسعة مرقطة بالغيوم. تدفعها النسمات اللطيفة في رقصة هادئة، تلقي بظلالها الديناميكية على المناظر الطبيعية الخضراء أدناه. لقطة واسعة من مستوى الأرض، تلتقط المشهد الواسع.
التقييم الكمي والنوعي
أجرى فريق البحث مقارنات كمية ونوعية بين PanoWan و360DVD (CVPR'24) وDynamicScaler (CVPR'25)، والتي تنطبق أيضًا على مقاطع الفيديو البانورامية الخاصة بـ Vincent.
لتقييم جودة الصورة المُولّدة وخصائص الفيديو البانورامي علميًا، اعتمد الفريق نظام تقييم يأخذ في الاعتبار مؤشرات تقييم الفيديو العامة ومؤشرات البانوراما الخاصة. من بينها، تشمل المؤشرات العامة جودة الفيديو الكلية (FVD)، ومطابقة نص الفيديو (VideoCLIP-XL)، وجودة الصورة، بينما تستخدم مؤشرات البانوراما الخاصة معايير تقييم لقياس استمرارية حدود خط الطول، ودقة أنماط الحركة، وثراء المشهد.وبناءً على النتائج التجريبية الكمية، حقق PanoWan أفضل أداء في جميع المؤشرات الرئيسية.

يظهر ما يلي مقارنة بين التأثيرات المرئية لـ PanoWan والطرق الموجودة:
نبذة عن فريق البحث
شي بوكسين، مدير مختبر ذكاء الكاميرا بجامعة بكين (http://camera.pku.edu.cn)، هو نائب مدير معهد تكنولوجيا الفيديو والرؤية بكلية علوم الحاسوب بجامعة بكين، وأستاذ مشارك (باحث) دائم، ومشرف على أطروحة دكتوراه، وباحث من بكين تشي يوان، ومدير مختبر الذكاء المتجسد المشترك بين جامعة بكين وشيفانغ. حصل على درجة الدكتوراه من جامعة طوكيو باليابان، وكان زميلًا في أبحاث ما بعد الدكتوراه في مختبر الوسائط بمعهد ماساتشوستس للتكنولوجيا.
مجال بحثه هو التصوير الحاسوبي والرؤية الحاسوبية. نشر أكثر من 200 ورقة بحثية (بما في ذلك 30 ورقة بحثية في TPAMI وأكثر من 100 ورقة بحثية في المؤتمرات الثلاثة الكبرى في مجال الرؤية الحاسوبية). فازت ورقته البحثية بجائزة أفضل ورقة بحثية، والمركز الثاني في مؤتمر IEEE/CVF حول الرؤية الحاسوبية والتعرف على الأنماط (CVPR) لعام 2024، وجائزة أفضل ورقة بحثية في المؤتمر الدولي للتصوير الحاسوبي (ICCP) لعام 2015، وجائزة أفضل ورقة بحثية مرشحة في المؤتمر الدولي للرؤية الحاسوبية (ICCV) لعام 2015. فاز بجائزة منحة أوكاوا اليابانية للأبحاث (2021) وجائزة العالم الشاب من المعهد الصيني للإلكترونيات (2024). وهو كبير العلماء في مشاريع الذكاء الاصطناعي الرئيسية بوزارة العلوم والتكنولوجيا، والشخص المسؤول عن المشاريع الرئيسية للمؤسسة الوطنية للعلوم الطبيعية في الصين، ومرشح للبرنامج الوطني للمواهب الشابة. يشغل منصب عضو هيئة تحرير في أبرز المجلات العالمية TPAMI وIJCV، ورئيس قسم المؤتمرات الرائدة CVPR وICCV وECCV. وهو متحدث متميز في APSIPA، وعضو متميز في CCF، وعضو بارز في IEEE/CSIG.

بصفتها شركة محلية رائدة في مجال توفير خدمات الذكاء الاصطناعي، تُعد شركة OpenBayes Bayesian Computing، الشريك الرئيسي، منخرطة بشكل كبير في مجال البحث الصناعي ودعم البحث العلمي. ومن خلال دمج أنظمة برمجية تقليدية ونماذج تعلم آلي للجيل الجديد من الرقائق غير المتجانسة، تُوفر OpenBayes للمؤسسات الصناعية ومؤسسات البحث الجامعي منتجات حوسبة بيانات أسرع وأسهل استخدامًا. وقد اعتمدت عشرات الشركات الصناعية الكبرى ومعاهد البحث العلمي الرائدة منتجاتها.
قم بزيارة الموقع الرسمي:https://openbayes.com/