التعلم المُدرَّب على الويب المُدمج المصادر للتمييز في الفيديو

نقدّم "OmniSource"، إطارًا جديدًا لاستغلال بيانات الويب لتدريب نماذج التعرف على الفيديو. يتجاوز OmniSource الحواجز بين أشكال البيانات المختلفة، مثل الصور، والفيديوهات القصيرة، والفيديوهات الطويلة غير المُعدّلة، في سياق التعلّم المُشرَّف بالويب. أولاً، يتم تحويل العينات البيانات ذات الأشكال المتعددة، التي تم جمعها حسب المهام المحددة وتصفية تلقائية بواسطة نموذج معلم، إلى شكل موحّد. ثم يتم اقتراح استراتيجية تدريب مشترك للتعامل مع الفجوات بين المجالات الموجودة بين مصادر البيانات والأشكال المختلفة في التعلّم المُشرَّف بالويب. وتم اعتماد عدة ممارسات جيدة في التدريب المشترك، بما في ذلك موازنة البيانات، وإعادة أخذ العينات، وتقنية المزج بين قواعد البيانات المختلفة (cross-dataset mixup). تُظهر التجارب أن استخدام بيانات من مصادر وأشكال متعددة يجعل OmniSource أكثر كفاءة في الاستخدام من حيث كمية البيانات. وباستخدام فقط 3.5 مليون صورة و800 ألف دقيقة من الفيديوهات التي تم جمعها من الإنترنت دون تسمية يدوية (أقل من 2% من العمل السابق)، تُحسّن النماذج التي تم تدريبها باستخدام OmniSource دقة الدرجة الأولى (Top-1) لنماذج الأساس 2D- و3D-ConvNet بنسبة 3.0% و3.9% على معيار Kinetics-400 على التوالي. وباستخدام OmniSource، نُسجّل أرقامًا قياسية جديدة باستخدام استراتيجيات تدريب مسبق مختلفة للتعرف على الفيديو. تحقق أفضل النماذج لدينا دقة قدرها 80.4% و80.5% و83.6% في الدرجة الأولى على معيار Kinetics-400 على التوالي، وذلك عند التدريب من الصفر، والتدريب المسبق باستخدام ImageNet، والتدريب المسبق باستخدام IG-65M.