HyperAIHyperAI

Command Palette

Search for a command to run...

برنامج تعليمي عبر الإنترنت | NVIDIA مفتوح المصدر LocateAnything، وهو نموذج 3B يمكّن من تحديد الهدف في الصور والفيديو، واكتشاف الكائنات ذات المفردات المفتوحة، وتحديد موقع الهدف، وتحديد موقع نص OCR، ووظائف أخرى.

Featured Image

مع استمرار تطور نماذج اللغة المرئية (VLMs) نحو الوكلاء والتفاعل متعدد الوسائط ومهام العالم الحقيقي، لم يعد "فهم الصور" هو الهدف النهائي؛ والأهم من ذلك، هو "تحديد موقع الهدف بدقة". ينطبق هذا على اكتشاف الكائنات ذات المفردات المفتوحة، وتشغيل واجهة وكيل واجهة المستخدم الرسومية، وفهم المستندات، والإدراك البيئي في أنظمة الروبوتات والقيادة الذاتية.كل هذه العوامل تفرض متطلبات متزايدة على قدرات التأريض البصري.

مع ذلك، تعتمد نماذج اللغة المرئية السائدة حاليًا بشكل عام على مخطط "توليد رموز الإحداثيات" عند التعامل مع مهام التوطين، والذي يتضمن تقسيم مربع إحاطة ثنائي الأبعاد إلى رموز إحداثيات أحادية البعد متعددة، ثم توليدها وفك تشفيرها واحدًا تلو الآخر. لا يقتصر الأمر على صعوبة هذا النهج في الحفاظ على اتساق الهندسة الداخلية لمربع الإحاطة، بل...علاوة على ذلك، فإن آلية التوليد التسلسلي الصارمة تحد من سرعة الاستدلال.عندما يحتاج نموذج ما إلى معالجة عدد كبير من الأهداف في وقت واحد، فغالباً ما يكون من الصعب تحقيق التوازن بين كفاءة تحديد الموقع ودقته.

استجابةً لهذه المشكلة المزمنة،أعلنت شركة NVIDIA مؤخرًا عن إصدار مفتوح المصدر لعضو جديد في سلسلة Eagle VLM - LocateAnything-3B.هذا نموذج لتحديد موقع اللغة المرئية يحتوي على 3 مليارات معلمة، ويدعم مهامًا متنوعة مثل اكتشاف الكائنات ذات المفردات المفتوحة، وتحديد موقع تعبير المؤشر، وتحديد موقع نص OCR، وتحديد موقع عناصر واجهة المستخدم الرسومية، وتحديد الهدف في الصور ومقاطع الفيديو، بهدف بناء إطار عمل موحد لتحديد الموقع والكشف المرئي.

يكمن الابتكار الأساسي في برنامج LocateAnything-3B في آلية جديدة تسمى فك تشفير الصندوق المتوازي (PBD). على عكس الطرق التقليدية التي تولد رموز الإحداثيات واحدة تلو الأخرى،يمكن لـ PBD التنبؤ بالعناصر الهندسية مثل المربعات المحيطة والنقاط الرئيسية كهيكل كامل في وقت واحد.لا يحافظ هذا التصميم على التناسق الهندسي داخل المربع المحيط فحسب، بل يحسن أيضًا بشكل كبير من إنتاجية فك التشفير، مما يتيح للنموذج تحقيق سرعة استدلال أسرع مع الحفاظ على قدرات تحديد المواقع عالية الدقة.

إلى جانب الابتكار المعماري، قامت NVIDIA أيضًا ببناء نظام تدريب واسع النطاق حول هذا النموذج. طور فريق البحث محرك بيانات قابل للتوسع وأطلق مجموعة بيانات LocateAnything-Data، التي تحتوي على أكثر من 138 مليون عينة تدريبية، تغطي مجالات متعددة مثل المشاهد الطبيعية، والروبوتات، والقيادة الذاتية، والتفاعل مع واجهة المستخدم الرسومية، وفهم المستندات، والتعرف الضوئي على الأحرف، مما يحسن بشكل كبير قدرة النموذج على التعميم في السيناريوهات المعقدة.

تُظهر النتائج التجريبية أن برنامج LocateAnything يحقق جودة تحديد موقع أعلى وسرعة فك تشفير أسرع في العديد من معايير تحديد الموقع المرئي، مما يدفع نماذج تحديد الموقع المرئي الموحدة إلى ما هو أبعد من المفاضلة التقليدية بين السرعة والدقة. بالنسبة لوكلاء واجهة المستخدم الرسومية سريعة التطور، وأنظمة التعليق التلقائي، ووكلاء الوسائط المتعددة من الجيل التالي، أصبحت هذه القدرة الفعالة والدقيقة على فهم المكان قدرةً أساسيةً على مستوى البنية التحتية.

حالياً، أطلق قسم البرامج التعليمية في الموقع الرسمي لشركة HyperAI (hyper.ai) "LocateAnything-3B: A Fast and High-Quality Visual Language Localization Model"، مما يقلل من عتبة النشر في شكل دفتر ملاحظات.

تشغيل عبر الإنترنت:https://go.hyper.ai/4l9jB

مثال توضيحي

المزيد من الدروس التعليمية عبر الإنترنت:

https://hyper.ai/notebooks

نرحب بكم لزيارة موقعنا الإلكتروني الرسمي لمزيد من المعلومات:

https://hyper.ai

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لموقع hyper.ai، حدد صفحة "الدروس التعليمية"، أو انقر فوق "عرض المزيد من الدروس التعليمية"، وحدد "LocateAnything-3B: نموذج سريع وعالي الجودة لتحديد موقع اللغة المرئية"، وانقر فوق "تشغيل هذا البرنامج التعليمي".

2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد صور "NVIDIA RTX 5090" و "PyTorch"، وانقر فوق "متابعة تنفيذ المهمة".

4. انتظر حتى يتم تخصيص الموارد. بمجرد أن تتغير الحالة إلى "قيد التشغيل"، انقر فوق "فتح مساحة العمل" للدخول إلى مساحة عمل Jupyter.

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على ملف README الموجود على اليسار، ثم انقر على تشغيل في الأعلى.

2. بمجرد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين للانتقال إلى صفحة العرض التوضيحي.