نموذج أساسي عام للكائنات لمجموعات الصور والفيديوهات على نطاق واسع

نقدم في هذا العمل نموذج GLEE، وهو نموذج أساسي على مستوى الكائنات لتحديد موقع وتمييز الكائنات في الصور والفيديوهات. من خلال إطار عمل موحد، يحقق GLEE المهام التالية: الكشف، التقطيع، تتبع، تأصيل، وتمييز كائنات عشوائية في سيناريو العالم المفتوح لمجموعة متنوعة من مهام إدراك الكائنات. بتبني استراتيجية تعلم متماسكة، يكتسب GLEE المعرفة من مصادر بيانات متنوعة ذات مستويات مختلفة من الإشراف لصياغة تمثيلات كائنات عامة، مما يجعله يتميز بنقل الصفر إلى البيانات والمهمات الجديدة.وبشكل خاص، نستخدم محول صورة (Image Encoder)، محول نص (Text Encoder)، ومثير بصري (Visual Prompter) للتعامل مع المدخلات متعددة الوسائط، مما يمكنه من حل مجموعة متنوعة من المهام الفرعية المستندة إلى الكائنات بشكل متزامن مع الحفاظ على أداء رائد في مجاله. وقد أظهرت التجارب الواسعة التي أجريت على أكثر من خمسة ملايين صورة من مقاييس مختلفة أن GLEE يتمتع بمرونة كبيرة وأداء تعميم محسن، حيث يقوم بكفاءة بمعالجة المهام الفرعية دون الحاجة إلى تكيف خاص بالمهمة. ومن خلال دمج كميات كبيرة من البيانات المصنفة تلقائيًا، نعزز قدراته على التعميم بدون إشراف.بالإضافة إلى ذلك، يمكن دمج GLEE في نماذج اللغات الكبيرة ليكون نموذجًا أساسيًا يوفر المعلومات على مستوى الكائن بشكل شامل للمهام متعددة الوسائط. نأمل أن تكون المرونة والشمولية لطريقتنا خطوة مهمة في تطوير النماذج البصرية الأساسية الفعالة لأنظمة الذكاء الاصطناعي العام (AGI). سيتم إطلاق النموذج والكود على الرابط https://glee-vision.github.io .