التمييز الذاتي للأشياء في الفيديو عن طريق تجميع الحركة

لقد تطورت الحيوانات لأنظمة بصرية عالية الوظائفية لفهم الحركة، مما يساعد في الإدراك حتى في البيئات المعقدة. وفي هذا البحث، نسعى إلى تطوير نظام رؤية حاسوبية قادر على تقسيم الأشياء باستغلال مؤشرات الحركة، أي تقسيم الحركة. ونقدم المساهمات التالية: أولاً، نقدم متغيرًا بسيطًا من الـ Transformer لتقسيم الإطارات الناقلة للحركة إلى الأشياء الرئيسية والخلفية. ثانياً، نقوم بتدريب الهيكل بطريقة ذاتية مراقبة، أي دون استخدام أي شروحات يدوية. ثالثاً، نحلل عدة مكونات حاسمة في طريقتنا ونقوم بدراستها بشكل شامل لإثبات ضرورتها. رابعاً، نقيم الهيكل المقترح على مقاييس عامة (DAVIS2016، SegTrackv2، وFBMS59). وعلى الرغم من استخدامنا فقط للحركة البصرية كمدخل، فإن نهجنا يحقق نتائج أفضل أو مقاربة للطرق الذاتية المراقبة الرائدة سابقًا، مع كونه أسرع بمقدار عامل كبير. كما قمنا بال평가 على مجموعة بيانات صعبة (MoCA)، حيث حققنا تفوقًا واضحًا على الطرق الذاتية المراقبة الأخرى، وأداءً جيدًا مقارنة بالنهج الرائد المراقب. وهذا يؤكد أهمية مؤشرات الحركة والتحيز المحتمل نحو المظهر البصري في نماذج تقسيم الفيديو الحالية.注释:- "Transformer" 翻译为 "الـ Transformer",因为这是在计算机视觉领域中广泛使用的专有名词。- "optical flow" 翻译为 "الحركة البصرية",这是常用的术语翻译。- "self-supervised" 翻译为 "ذاتي المراقبة",以保持专业性和准确性。- 机构名称如 DAVIS2016、SegTrackv2 和 FBMS59 直接保留英文形式,以确保信息的完整性。- "camouflage dataset (MoCA)" 翻译为 "مجموعة بيانات صعبة (MoCA)",其中 "MoCA" 是数据集的名称,保留英文形式。