مجموعة بيانات تجزئة المشهد السمعي البصري Ref-AVS
التاريخ
الحجم
رابط النشر
تم إصدار مجموعة بيانات Ref-AVS في عام 2024 من قبل باحثين من جامعة رينمين الصينية، وجامعة بكين للبريد والاتصالات، ومختبر الذكاء الاصطناعي في شنغهاي.Ref-AVS: الإشارة إلى الكائنات وتقسيمها في المشاهد السمعية والبصرية"، تم قبولها بواسطة ECCV2024.
تُعد مجموعة بيانات Ref-AVS معيارًا لمهام تقسيم الكائنات في المشاهد السمعية والبصرية التي توفر تعليقات توضيحية على مستوى البكسل وتهدف إلى تعزيز تطوير نماذج التعلم الآلي المتعددة الوسائط، وخاصة في المهام المعقدة التي تنطوي على دمج المعلومات الصوتية والمرئية.
قام فريق البحث باختيار عدة أشياء مسموعة في 48 فئة: 20 آلة موسيقية، و8 حيوانات، و15 آلة، و5 بشر. تم جمع التعليقات التوضيحية باستخدام نظام العلامات GSAI المصمم خصيصًا للفريق.
أثناء عملية الحصول على الفيديو، استخدم فريق البحث التقنيات المقدمة في الأدبيات [3،47] للتأكد من أن مقاطع الصوت والفيديو تتوافق مع الدلالات المقصودة. يتم الحصول على جميع مقاطع الفيديو من YouTube بموجب ترخيص Creative Commons، وتم تقليص مدة كل مقطع فيديو إلى 10 ثوانٍ. خلال عملية التجميع اليدوي، تجنبنا عمدًا تصنيف مقاطع الفيديو إلى عدة فئات: 1) مقاطع الفيديو التي تحتوي على عدد كبير من الكميات الدلالية المتطابقة؛ 2) مقاطع فيديو تحتوي على عدد كبير من خصائص التحرير والتبديل بين الكاميرات؛ 3) مقاطع فيديو غير واقعية تحتوي على قطع أثرية اصطناعية.