الملخص

يُعزى العديد من التقدمات الحديثة في رؤية الحاسوب إلى مجموعات البيانات الكبيرة. لقد خفّضت حزم البرمجيات المفتوحة المصدر لمجال تعلم الآلة والأجهزة الرخيصة الثمن الحواجز أمام استكشاف نهج جديدة على نطاق واسع. يمكن تدريب النماذج على ملايين الأمثلة خلال بضعة أيام فقط. رغم وجود مجموعات بيانات كبيرة لفهم الصور مثل ImageNet، إلا أنه لا توجد مجموعات بيانات مشابهة الحجم للتصنيف الفيديوي.في هذا البحث، نقدم YouTube-8M، وهي أكبر مجموعة بيانات للتصنيف الفيديوي متعددة العلامات، وتتألف من حوالي 8 ملايين فيديو (500 ألف ساعة من الفيديو)، وقد تم تصنيفها باستخدام قاموس يحتوي على 4800 كيان بصري. لاستخراج الفيديوهات وتصنيفاتها، استخدمنا نظام تصنيف الفيديو الخاص بـ YouTube، الذي يقوم بتسمية الفيديوهات بموضوعاتها الرئيسية. رغم أن هذه التصنيفات تولدها آلة، إلا أنها ذات دقة عالية وتستند إلى مجموعة متنوعة من الإشارات البشرية بما في ذلك البيانات الوصفية وإشارات النقر على الاستعلامات. قمنا بتصفية علامات الفيديو (كيانات Knowledge Graph) باستخدام استراتيجيات تحرير آلية ويدوية، بما في ذلك طلب آراء المقيمين البشريين حول مدى إمكانية تمييز هذه العلامات بصرياً. ثم قمنا بفك شفرة كل فيديو بمعدل إطار واحد لكل ثانية واستخدمنا شبكة عصبية عميقة (Deep CNN) تم تدريبها مسبقاً على ImageNet لاستخراج التمثيل الخفي مباشرة قبل طبقة التصنيف. أخيرًا، ضغطنا خصائص الإطارات وأصبحت الخصائص والتصنيفات على مستوى الفيديو متاحة للتحميل.قمنا بتدريب نماذج تصنيف مختلفة (متواضعة) على هذه المجموعة من البيانات، وتقييمها باستخدام مقاييس التقييم الشائعة، ونقدمها كنقاط بداية. وعلى الرغم من حجم المجموعة الضخم، فإن بعض نماذجنا تتقارب في التدريب خلال أقل من يوم واحد على جهاز واحد باستخدام TensorFlow. نخطط لإصدار شفرة لتدريب نموذج TensorFlow ولحساب المقاييس.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

YouTube-8M: معيار تصنيف الفيديو على نطاق واسع

Sami Abu-El-Haija; Nisarg Kothari; Joonseok Lee; Paul Natsev; George Toderici; Balakrishnan Varadarajan; Sudheendra Vijayanarasimhan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

YouTube-8M: معيار تصنيف الفيديو على نطاق واسع

Sami Abu-El-Haija; Nisarg Kothari; Joonseok Lee; Paul Natsev; George Toderici; Balakrishnan Varadarajan; Sudheendra Vijayanarasimhan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

YouTube-8M: معيار تصنيف الفيديو على نطاق واسع

Sami Abu-El-Haija; Nisarg Kothari; Joonseok Lee; Paul Natsev; George Toderici; Balakrishnan Varadarajan; Sudheendra Vijayanarasimhan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters