AutoShot: مجموعة بيانات فيديو قصير وتحديد حدود المشهد الأحدث في مجاله

لقد اكتسبت مقاطع الفيديو القصيرة شعبية متفجرة، وفرضت هيمنة على الاتجاهات الجديدة في وسائل التواصل الاجتماعي. وقد غيرت منصات الفيديو القصيرة الشهيرة، مثل كوايشو (كواي)، وتيك توك، وإنستغرام ريلز، ويوتيوب شورتس، الطريقة التي نستهلك بها ونُنتج بها المحتوى. وفي مجال إنشاء وفهم محتوى الفيديو، يُعد كشف حدود اللقطة (SBD) أحد المكونات الأساسية في سيناريوهات متعددة. في هذا العمل، نُطلق مجموعة بيانات عامة جديدة للكشف عن حدود اللقطة في مقاطع الفيديو القصيرة، تُسمى SHOT، وتشمل 853 مقطع فيديو كاملًا و11,606 علامات لحدود اللقطات، منها 2,716 علامة عالية الجودة في 200 مقطع اختبار. وباستغلال هذه الكنز البياناتي الجديد، نقترح تحسين تصميم النموذج للكشف عن حدود اللقطة في الفيديو، من خلال إجراء بحث في البنية العصبية (Neural Architecture Search) ضمن فضاء بحث يضم مجموعة متنوعة من الشبكات العصبية الثلاثية الأبعاد (3D ConvNets) والمحولات (Transformers). ويدعى النهج المقترح AutoShot، ويحقق قيم F1 أعلى من الطرق الرائدة السابقة، حيث يتفوق على TransNetV2 بنسبة 4.2% عند تطبيقه وتقييمه على مجموعة بيانات SHOT الجديدة التي تم بناؤها. علاوةً على ذلك، لتأكيد قابلية تعميم بنية AutoShot، قمنا بتقييمها مباشرة على ثلاث مجموعات بيانات عامة أخرى: ClipShots، وBBC، وRAI، حيث تفوقت قيم F1 الخاصة بـ AutoShot على الطرق الرائدة السابقة بنسبة 1.1% و0.9% و1.2% على التوالي. يمكن العثور على مجموعة بيانات SHOT والكود على الرابط: https://github.com/wentaozhu/AutoShot.git.