أومنيفوري: نموذج واحد لعدة أشكال بصرية

في الدراسات السابقة، تم دراسة أنماط بصرية مختلفة بشكل منفصل، وتم تطوير هياكل معمارية منفصلة لتمييز الصور، والفيديوهات، والبيانات ثلاثية الأبعاد. بدلًا من ذلك، في هذه الورقة، نقترح نموذجًا واحدًا يتفوق في تصنيف الصور، والفيديوهات، والبيانات ثلاثية الأبعاد ذات المنظور الواحد باستخدام بالضبط نفس المعاملات الموديلية. يعتمد نموذجنا "أومنيفوري" على مرونة الهياكل القائمة على المحولات (transformer)، ويتم تدريبه بشكل مشترك على مهام تصنيف من أنواع مختلفة من الأنماط. يتميز أومنيفوري بسهولة التدريب، ويستخدم مجموعات بيانات قياسية جاهزة، ويحقق أداءً مماثلًا أو أفضل من النماذج المخصصة لكل نمط من نفس الحجم. يحقق نموذج أومنيفوري الواحد 86.0% على ImageNet، و84.1% على Kinetics، و67.1% على SUN RGB-D. وبعد التخصيص الدقيق (fine-tuning)، يتفوق نماذجنا على الدراسات السابقة في مجموعة متنوعة من مهام الرؤية، وتمتد قدرته على التعميم عبر الأنماط المختلفة. وتمكّن التمثيل البصري المشترك في أومنيفوري من التعرف المتقاطع بين الأنماط دون الحاجة إلى وجود تطابق بينها. نأمل أن تُشجّع نتائجنا الباحثين على نمذجة الأنماط البصرية معًا.