segmentation الفيديو للبوليپ: منظور التعلم العميق

نقدم أول دراسة شاملة للتقسيم البؤري للفيديو (VPS) في عصر التعلم العميق. على مر السنين، لم تشهد تطورات التقسيم البؤري للفيديو تقدماً سهلاً بسبب نقص التسميات الدقيقة على نطاق واسع. لمعالجة هذه المشكلة، نقدم أولاً مجموعة بيانات SUN-SEG ذات الجودة العالية والمُشَرَّحة إطارًا بإطار، والتي تحتوي على 158,690 إطارًا من الفحوصات القولونية من قاعدة البيانات الشهيرة SUN-database. نوفر أيضًا تسميات إضافية بأنواع متنوعة، مثل السمات، والقناع الكائني، والحدود، والخربشات، والمضلعات. ثانيًا، صممنا خط أساس بسيط ولكن فعال يُعرف باسم PNS+، يتكون من مشفِّر عالمي، ومشفِّر محلي، وكتل انتباه ذاتي مُعَدَّلة (NS). يتلقى المشفِّران العاملان العالمي والمحلي إطارًا رئيسيًا وإطارات متتالية متعددة لاستخراج تمثيلات زمانية-مكانية طويلة الأجل وقصيرة الأجل، والتي يتم تحديثها تدريجيًا بواسطة كتلتي NS. أظهرت التجارب الواسعة أن PNS+ يحقق أفضل الأداء وسرعة استدلال في الوقت الحقيقي (170 إطارًا في الثانية)، مما يجعله حلًّا واعدًا للمهمة VPS. ثالثًا، نقيم بشكل مكثف 13 نموذج تقسيم بؤري/كائني ممثلة على مجموعة بياناتنا SUN-SEG ونقدم مقارنات قائمة على السمات. وأخيرًا، نناقش عدة قضايا مفتوحة وتلميح إلى اتجاهات بحثية محتملة لمجتمع VPS.