BURST: معيار لتوحيد التعرف على الكائنات والتقسيم والتتبع في الفيديو

هناك العديد من المقاييس القائمة التي تتضمن تتبع وتقسيم الأشياء في الفيديو، مثل تقسيم كائنات الفيديو (VOS) وتتبع وتقسيم الكائنات المتعددة (MOTS)، ولكن هناك تفاعل قليل بينها بسبب استخدام مجموعات بيانات مقاييس مختلفة ومتنوعة (مثل J&F، mAP، sMOTSA). نتيجة لذلك، تكون الأعمال المنشورة عادة تستهدف مقاييس معينة ولا يمكن مقارنتها بسهولة مع بعضها البعض. نعتقد أن تطوير طرق شاملة يمكنها التعامل مع مهام متعددة يتطلب تماسكًا أكبر بين هذه المجتمعات البحثية الفرعية. في هذا البحث، نسعى إلى تسهيل ذلك من خلال اقتراح مجموعة بيانات BURST، والتي تحتوي على آلاف الفيديوهات المتنوعة ذات أقنعة كائنات عالية الجودة، بالإضافة إلى مقاييس مرتبطة بها تتضمن ست مهام تتعلق بتتبع وتقسيم الأشياء في الفيديو. يتم تقييم جميع المهام باستخدام نفس البيانات والمقاييس القابلة للمقارنة، مما يتيح للباحثين النظر فيها بشكل متكامل وبالتالي جمع المعرفة بفعالية أكبر من الطرق المختلفة عبر المهام المختلفة. بالإضافة إلى ذلك، نقدم عدة نقاط بداية لجميع المهام ونوضح أن الطرق المستخدمة في مهمة واحدة يمكن تطبيقها على مهمة أخرى مع فروق أداء قابلة للقياس والتفسير. يمكن الوصول إلى شروحات مجموعة البيانات وكود التقييم من الرابط التالي: https://github.com/Ali2500/BURST-benchmark.