تحسين تقسيم الكائنات في الفيديو بدون إشراف عبر توليد التدفق المزيف

التفصيل غير المشرف للأشياء في الفيديو (VOS)، المعروف أيضًا باسم اكتشاف الأشياء البارزة في الفيديو، يهدف إلى الكشف عن أكثر الأشياء بروزًا في الفيديو على مستوى البكسل. مؤخرًا، حظيت الأساليب ذات التيارين التي تستفيد من صور RGB وخرائط التدفق البصري باهتمام كبير. ومع ذلك، فإن نقص البيانات التدريبية يظل تحديًا كبيرًا. في هذه الدراسة، نقترح طريقة جديدة لتوليد البيانات تحاكي تدفقات ضوئية مزيفة من صور فردية، مما يساهم في إنشاء بيانات تدريبية على نطاق واسع لتعلم الشبكة بشكل مستقر. استلهمت هذه الطريقة من الملاحظة أن خرائط التدفق البصري تعتمد بشكل كبير على خرائط العمق، حيث نقوم بتوليد تدفقات ضوئية مزيفة من خلال تحسين وتضخيم الخرائط المتوقعة للعمق لكل صورة. من خلال دمج أزواج الصور والتدفقات المحاكاة لدينا، نحقق أداءً جديدًا يتفوق على جميع قواعد البيانات المرجعية العامة دون الاعتماد على وحدات معقدة. نعتقد أن طريقة توليد البيانات الخاصة بنا تمثل نقطة تحول محتملة للأبحاث المستقبلية في مجال VOS (تفصيل الأشياء في الفيديو).