HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج أساسي عام للكائنات لمجموعات الصور والفيديوهات على نطاق واسع

Junfeng Wu Yi Jiang Qihao Liu Zehuan Yuan Xiang Bai Song Bai

الملخص

نقدم في هذا العمل نموذج GLEE، وهو نموذج أساسي على مستوى الكائنات لتحديد موقع وتمييز الكائنات في الصور والفيديوهات. من خلال إطار عمل موحد، يحقق GLEE المهام التالية: الكشف، التقطيع، تتبع، تأصيل، وتمييز كائنات عشوائية في سيناريو العالم المفتوح لمجموعة متنوعة من مهام إدراك الكائنات. بتبني استراتيجية تعلم متماسكة، يكتسب GLEE المعرفة من مصادر بيانات متنوعة ذات مستويات مختلفة من الإشراف لصياغة تمثيلات كائنات عامة، مما يجعله يتميز بنقل الصفر إلى البيانات والمهمات الجديدة.وبشكل خاص، نستخدم محول صورة (Image Encoder)، محول نص (Text Encoder)، ومثير بصري (Visual Prompter) للتعامل مع المدخلات متعددة الوسائط، مما يمكنه من حل مجموعة متنوعة من المهام الفرعية المستندة إلى الكائنات بشكل متزامن مع الحفاظ على أداء رائد في مجاله. وقد أظهرت التجارب الواسعة التي أجريت على أكثر من خمسة ملايين صورة من مقاييس مختلفة أن GLEE يتمتع بمرونة كبيرة وأداء تعميم محسن، حيث يقوم بكفاءة بمعالجة المهام الفرعية دون الحاجة إلى تكيف خاص بالمهمة. ومن خلال دمج كميات كبيرة من البيانات المصنفة تلقائيًا، نعزز قدراته على التعميم بدون إشراف.بالإضافة إلى ذلك، يمكن دمج GLEE في نماذج اللغات الكبيرة ليكون نموذجًا أساسيًا يوفر المعلومات على مستوى الكائن بشكل شامل للمهام متعددة الوسائط. نأمل أن تكون المرونة والشمولية لطريقتنا خطوة مهمة في تطوير النماذج البصرية الأساسية الفعالة لأنظمة الذكاء الاصطناعي العام (AGI). سيتم إطلاق النموذج والكود على الرابط https://glee-vision.github.io .


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp