Command Palette
Search for a command to run...
Qing Jiang Junan Huo Xingyu Chen Yuda Xiong Zhaoyang Zeng Yihao Chen Tianhe Ren Junzhi Yu Lei Zhang

الملخص
تمّ التحديد الكاشف للأشياء لفترة طويلة بقيادة النماذج التقليدية القائمة على الانحدار الإحداثي، مثل YOLO وDETR وGrounding DINO. وعلى الرغم من الجهود الحديثة التي حاولت الاستفادة من النماذج الكبيرة متعددة الوسائط (MLLMs) لمعالجة هذه المهمة، إلا أنها تواجه تحديات مثل انخفاض معدل الاستدعاء (recall)، والتكرار في التنبؤات، وتشتت الإحداثيات، وغيرها. في هذا العمل، نُغِير هذا الفجوة ونُقدّم نموذج Rex-Omni، وهو نموذج MLLM بحجم 3B، يحقق أداءً متميزًا في التمييز البصري. وعلى معايير مثل COCO وLVIS، يُظهر Rex-Omni أداءً يُقاس بمستوى أو يتفوق على النماذج القائمة على الانحدار (مثل DINO وGrounding DINO) في بيئة تجريبية صفرية (zero-shot). ويُمكن تحقيق هذا الأداء بفضل ثلاث تصميمات رئيسية:1) صيغة المهمة: نستخدم رموزًا خاصة لتمثيل الإحداثيات المُكمّلة من 0 إلى 999، مما يقلل من صعوبة تعلّم النموذج ويعزز كفاءة الرموز في التنبؤ بالإحداثيات؛2) محركات البيانات: نُنشئ عدة محركات بيانات لإنشاء بيانات توجيهية عالية الجودة، وبيانات تشير إلى الكائنات، وبيانات تشير بالمؤشر، مما يوفر رقابة معنوية غنية لتدريب النموذج؛3) مسارات التدريب: نطبّق عملية تدريب مزدوجة، تجمع بين التدريب المُعدّل بمساعدة مراقبة على بيانات تبلغ 22 مليون نقطة، مع تدريب لاحق مبني على مبدأ GRPO (Generalized Reward Policy Optimization) للتحسين بالاعتماد على التعلم التكاملي (Reinforcement Learning). ويُستخدم هذا التدريب التكاملي بعد التدريب المُراقب لاستغلال مكافآت واعية بالهندسة، مما يُسهم بشكل فعّال في سد الفجوة بين التنبؤات المُتقطعة والمستمرة بالإحداثيات، وتحسين دقة الصناديق، وخفض السلوك غير المرغوب فيه مثل التنبؤات المتكررة الناتجة عن الطبيعة المُرشدة من قبل المعلم في المرحلة الأولى من التدريب المُراقب. بالإضافة إلى التحديد التقليدي، يُمكّن الفهم اللغوي المُتأصّل في Rex-Omni من إمكانات متعددة، مثل التحديد اللغوي للكائنات، التوجيه بالمؤشر، التحفيز البصري، التوجيه في واجهات المستخدم (GUI grounding)، التحديد المكاني، التعرف على النصوص (OCR)، وتحديد النقاط المميزة، حيث تم تقييم جميع هذه القدرات بشكل منهجي على معايير مخصصة. نعتقد أن Rex-Omni يُمهد الطريق لأنظمة رؤية أكثر مرونة ووعيًا لغويًا.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.