تعلم التجزئة غير المراقبة لكائنات الفيديو من خلال الانتباه البصري

تُجري هذه الورقة دراسة منهجية حول دور الانتباه البصري في مهام التجزئة الآلية للكائنات في الفيديو (UVOS). من خلال تزوييد ثلاث مجموعات بيانات شهيرة لتجزئة الفيديو (DAVIS و Youtube-Objects و SegTrack V2) ببيانات تتبع العين الديناميكية في سياق UVOS، تم لأول مرة التحقق الكمي من التوافق العالي في سلوك الانتباه البصري بين المراقبين البشريين، وتم اكتشاف ارتباط قوي بين انتباه الإنسان والتقييمات الصريحة للكائن الأساسي أثناء المشاهدة الديناميكية والمنضبطة بالمهام. تُقدّم هذه الملاحظات الجديدة رؤى عميقة حول الأساس النظري الكامن وراء UVOS. مستوحاة من هذه النتائج، قمنا بفصل مهمة UVOS إلى مهام فرعية اثنتين: التنبؤ بالانتباه البصري الديناميكي المُحفّز بـ UVOS (DVAP) في المجال الزمكاني، وتجزئة الكائنات الموجهة بالانتباه (AGOS) في المجال المكاني. يتميّز حلنا لـ UVOS بعدة مزايا رئيسية: 1) تدريب منفصل دون الحاجة إلى تسميات التجزئة الفيديوية الباهظة التكلفة، بل باستخدام بيانات التثبيت الديناميكي الأقل تكلفة لتدريب وحدة الانتباه الأولية في الفيديو، واستخدام بيانات التثبيت المزروة مع التجزئة من مصادر ثابتة/صور موجودة لتدريب الوحدة التالية للتجزئة؛ 2) فهم شامل للمحتوى الأمامي من خلال التعلم من مصادر متعددة؛ 3) إمكانية تفسير إضافية ناتجة عن الانتباه المستوحى من الطبيعة وقابل للقياس. أظهرت التجارب على معايير شهيرة أن النموذج، حتى دون استخدام تسميات قناع الكائنات في الفيديو الباهظة، يحقق أداءً مثيرًا مقارنةً بأفضل النماذج الحالية.