HyperAIHyperAI

Command Palette

Search for a command to run...

ImageBind: مساحة تمثيلية واحدة لربطها جميعًا

Rohit Girdhar Alaaeldin El-Nouby Zhuang Liu Mannat Singh Kalyan Vasudev Alwala Armand Joulin Ishan Misra

الملخص

نقدم ImageBind، وهي طريقة لتعلم تمثيل مشترك عبر ستة وسائط مختلفة - الصور، النصوص، الصوت، العمق، الحرارة، وبيانات IMU (وحدة القياس القصوى). نوضح أن جميع مجموعات البيانات المزدوجة ليست ضرورية لتدريب مثل هذا التمثيل المشترك، وأن بيانات الصور المزدوجة فقط كافية لربط الوسائط معًا. يمكن لـ ImageBind الاستفادة من النماذج اللغوية المرتبطة بالرؤية على نطاق واسع حديثاً، وتوسيع قدراتها على التعلم دون إشراف إلى وسائط جديدة باستخدام ترابطها الطبيعي مع الصور. إنها تمكن التطبيقات الناشئة الجديدة "بشكل مباشر" بما في ذلك استرجاع الوسائط المتعددة عبر الأنواع المختلفة، تركيب الوسائط باستخدام الحسابات الرياضية، الكشف والتكوين عبر الوسائط المتعددة. تتحسن القدرات الناشئة بقوة صانع الترميز للصور، وقد حققنا مستوى جديدًا من الطليعة في مهام التعرف على الأشياء دون إشراف عبر الوسائط المختلفة، مما يتفوق على النماذج الإشرافية المتخصصة. أخيرًا، نوضح أن ImageBind تحقق نتائج قوية في التعرف على الأشياء بقليل من الأمثلة تتفوق على الأعمال السابقة، وأنها تعمل كوسيلة جديدة لتقييم نماذج الرؤية البصرية وغير البصرية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp