HyperAIHyperAI
منذ 2 أشهر

ImageBind: مساحة تمثيلية واحدة لربطها جميعًا

Rohit Girdhar; Alaaeldin El-Nouby; Zhuang Liu; Mannat Singh; Kalyan Vasudev Alwala; Armand Joulin; Ishan Misra
ImageBind: مساحة تمثيلية واحدة لربطها جميعًا
الملخص

نقدم ImageBind، وهي طريقة لتعلم تمثيل مشترك عبر ستة وسائط مختلفة - الصور، النصوص، الصوت، العمق، الحرارة، وبيانات IMU (وحدة القياس القصوى). نوضح أن جميع مجموعات البيانات المزدوجة ليست ضرورية لتدريب مثل هذا التمثيل المشترك، وأن بيانات الصور المزدوجة فقط كافية لربط الوسائط معًا. يمكن لـ ImageBind الاستفادة من النماذج اللغوية المرتبطة بالرؤية على نطاق واسع حديثاً، وتوسيع قدراتها على التعلم دون إشراف إلى وسائط جديدة باستخدام ترابطها الطبيعي مع الصور. إنها تمكن التطبيقات الناشئة الجديدة "بشكل مباشر" بما في ذلك استرجاع الوسائط المتعددة عبر الأنواع المختلفة، تركيب الوسائط باستخدام الحسابات الرياضية، الكشف والتكوين عبر الوسائط المتعددة. تتحسن القدرات الناشئة بقوة صانع الترميز للصور، وقد حققنا مستوى جديدًا من الطليعة في مهام التعرف على الأشياء دون إشراف عبر الوسائط المختلفة، مما يتفوق على النماذج الإشرافية المتخصصة. أخيرًا، نوضح أن ImageBind تحقق نتائج قوية في التعرف على الأشياء بقليل من الأمثلة تتفوق على الأعمال السابقة، وأنها تعمل كوسيلة جديدة لتقييم نماذج الرؤية البصرية وغير البصرية.

ImageBind: مساحة تمثيلية واحدة لربطها جميعًا | أحدث الأوراق البحثية | HyperAI