HyperAIHyperAI

Command Palette

Search for a command to run...

في سي-ماي: التعلم التمثيلي التلقائي من الصور والفيديوهات باستخدام مُشَكِّلات مُتَعَمِّدة مُتَقَارِنة

Jefferson Hernandez Ruben Villegas Vicente Ordonez

الملخص

نُقدّم نموذج ViC-MAE، الذي يدمج بين مُشفّرات الترميز المُقنّعة (MAE) والتعلّم التمييزي. يتم تدريب ViC-MAE باستخدام تمثيلات عامة مُستخلصة من تجميع التمثيلات المحلية التي تم تعلّمها تحت خسارة إعادة بناء MAE، مع الاستفادة من هذا التمثيل تحت هدف تمييزي عبر الصور والإطارات الفيديوية. نُظهر أن التمثيلات البصرية التي يتعلمها النموذج تحت ViC-MAE تُظهر أداءً جيدًا في التعميم على مهام تصنيف الصور والفيديوهات. وبشكل خاص، يحقق ViC-MAE أفضل أداء في التعلم الانتقالي من الفيديو إلى الصور على مجموعة بيانات Imagenet-1k مقارنةً بالنموذج الأخير المُقترح OmniMAE، حيث يحقق دقة أعلى في التصنيف الأولي (Top-1) بنسبة 86% (بزيادة مطلقة قدرها 1.3% عند التدريب على نفس البيانات)، و87.1% (بزيادة مطلقة قدرها 2.4% عند التدريب على بيانات إضافية). وفي الوقت نفسه، يتفوّق ViC-MAE على معظم الطرق الأخرى في معايير الفيديو، حيث يحقق دقة تصنيف أولي (Top-1) قدرها 75.9% على معيار الفيديو الصعب Something-something-v2. وباستخدام بيانات متنوعة من مجموعات بيانات مختلفة للتدريب على الصور والفيديوهات، يحافظ نهجنا على أداء متوازن في التعلم الانتقالي بين معايير تصنيف الفيديو والصور، ويأتي في المرتبة الثانية بفارق ضئيل فقط عن أفضل طريقة مُدرّبة بشكل مراقب.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
في سي-ماي: التعلم التمثيلي التلقائي من الصور والفيديوهات باستخدام مُشَكِّلات مُتَعَمِّدة مُتَقَارِنة | مستندات | HyperAI