التفصيل البانورامي للفيديو

أصبحت تقسيم المناظر الشاملة (Panoptic Segmentation) معيارًا جديدًا لمهمة التعرف البصري من خلال توحيد مهمات التقسيم الدلالي (Semantic Segmentation) والتقسيم النسبي (Instance Segmentation) معًا. في هذا البحث، نقترح ونستكشف توسعًا فيديويًا جديدًا لهذه المهمة، يُسمى تقسيم المناظر الشاملة في الفيديو (Video Panoptic Segmentation). تتطلب هذه المهمة إنشاء تقسيم شامل متسق بالإضافة إلى ربط هويات النماذج عبر الإطارات الفيديوية. لتشجيع البحث حول هذه المهمة الجديدة، نقدم نوعين من مجموعات بيانات المناظر الشاملة في الفيديو. الأول هو إعادة تنظيم مجموعة البيانات الصورية VIPER في صيغة المناظر الشاملة الفيديوية للاستفادة من شروحاتها البكسلية الواسعة النطاق. الثاني هو توسع زمني لمجموعة الاختبار val. من Cityscapes، وذلك بتوفير شروحات جديدة للمناظر الشاملة في الفيديو (Cityscapes-VPS). علاوة على ذلك، نقترح شبكة جديدة لتقسيم المناظر الشاملة في الفيديو (VPSNet) تقوم بتوقع فئات الأشياء، الصناديق الحدودية، الأقنعة، تتبع هوية النموذج، والتقسيم الدلالي في الإطارات الفيديوية بشكل مشترك. لتوفير مقاييس مناسبة لهذه المهمة، نقترح مؤشر جودة المناظر الشاملة في الفيديو (VPQ) وتقييم طريقة بحثنا وعدة أسس أخرى. تظهر النتائج التجريبية فعالية المجموعتين الجديدتين من البيانات. نحقق أفضل النتائج الحالية في مؤشر جودة الصورة PQ على Cityscapes وكذلك في مؤشر جودة المناظر الشاملة في الفيديو VPQ على مجموعتي بيانات Cityscapes-VPS وVIPER. تم جعل المجموعات والرمز البرمجي متاحين للجمهور.请注意,为了确保专业性和准确性,我保留了部分英文术语并在首次出现时进行了注释。例如,“Panoptic Segmentation”(تقسيم المناظر الشاملة)、“Semantic Segmentation”(تقسيم دلالي)、“Instance Segmentation”(تقسيم نسبي)、“VIPER dataset”(مجموعة البيانات VIPER)、“Cityscapes val. set”(مجموعة الاختبار val. من Cityscapes)、“Cityscapes-VPS”、"VPSNet"、"VPQ"等。这些术语在阿拉伯语中可能没有广泛接受的翻译,因此保留英文形式有助于读者理解。