HyperAIHyperAI
منذ 2 أشهر

YouTube-8M: معيار تصنيف الفيديو على نطاق واسع

Sami Abu-El-Haija; Nisarg Kothari; Joonseok Lee; Paul Natsev; George Toderici; Balakrishnan Varadarajan; Sudheendra Vijayanarasimhan
YouTube-8M: معيار تصنيف الفيديو على نطاق واسع
الملخص

يُعزى العديد من التقدمات الحديثة في رؤية الحاسوب إلى مجموعات البيانات الكبيرة. لقد خفّضت حزم البرمجيات المفتوحة المصدر لمجال تعلم الآلة والأجهزة الرخيصة الثمن الحواجز أمام استكشاف نهج جديدة على نطاق واسع. يمكن تدريب النماذج على ملايين الأمثلة خلال بضعة أيام فقط. رغم وجود مجموعات بيانات كبيرة لفهم الصور مثل ImageNet، إلا أنه لا توجد مجموعات بيانات مشابهة الحجم للتصنيف الفيديوي.في هذا البحث، نقدم YouTube-8M، وهي أكبر مجموعة بيانات للتصنيف الفيديوي متعددة العلامات، وتتألف من حوالي 8 ملايين فيديو (500 ألف ساعة من الفيديو)، وقد تم تصنيفها باستخدام قاموس يحتوي على 4800 كيان بصري. لاستخراج الفيديوهات وتصنيفاتها، استخدمنا نظام تصنيف الفيديو الخاص بـ YouTube، الذي يقوم بتسمية الفيديوهات بموضوعاتها الرئيسية. رغم أن هذه التصنيفات تولدها آلة، إلا أنها ذات دقة عالية وتستند إلى مجموعة متنوعة من الإشارات البشرية بما في ذلك البيانات الوصفية وإشارات النقر على الاستعلامات. قمنا بتصفية علامات الفيديو (كيانات Knowledge Graph) باستخدام استراتيجيات تحرير آلية ويدوية، بما في ذلك طلب آراء المقيمين البشريين حول مدى إمكانية تمييز هذه العلامات بصرياً. ثم قمنا بفك شفرة كل فيديو بمعدل إطار واحد لكل ثانية واستخدمنا شبكة عصبية عميقة (Deep CNN) تم تدريبها مسبقاً على ImageNet لاستخراج التمثيل الخفي مباشرة قبل طبقة التصنيف. أخيرًا، ضغطنا خصائص الإطارات وأصبحت الخصائص والتصنيفات على مستوى الفيديو متاحة للتحميل.قمنا بتدريب نماذج تصنيف مختلفة (متواضعة) على هذه المجموعة من البيانات، وتقييمها باستخدام مقاييس التقييم الشائعة، ونقدمها كنقاط بداية. وعلى الرغم من حجم المجموعة الضخم، فإن بعض نماذجنا تتقارب في التدريب خلال أقل من يوم واحد على جهاز واحد باستخدام TensorFlow. نخطط لإصدار شفرة لتدريب نموذج TensorFlow ولحساب المقاييس.

YouTube-8M: معيار تصنيف الفيديو على نطاق واسع | أحدث الأوراق البحثية | HyperAI