برنامج تعليمي عبر الإنترنت | NVIDIA مفتوح المصدر LocateAnything، وهو نموذج 3B يمكّن من تحديد الهدف في الصور والفيديو، واكتشاف الكائنات ذات المفردات المفتوحة، وتحديد موقع الهدف، وتحديد موقع نص OCR، ووظائف أخرى.

منذ 2 أشهر

مع استمرار تطور نماذج اللغة المرئية (VLMs) نحو الوكلاء والتفاعل متعدد الوسائط ومهام العالم الحقيقي، لم يعد "فهم الصور" هو الهدف النهائي؛ والأهم من ذلك، هو "تحديد موقع الهدف بدقة". ينطبق هذا على اكتشاف الكائنات ذات المفردات المفتوحة، وتشغيل واجهة وكيل واجهة المستخدم الرسومية، وفهم المستندات، والإدراك البيئي في أنظمة الروبوتات والقيادة الذاتية.كل هذه العوامل تفرض متطلبات متزايدة على قدرات التأريض البصري.

مع ذلك، تعتمد نماذج اللغة المرئية السائدة حاليًا بشكل عام على مخطط "توليد رموز الإحداثيات" عند التعامل مع مهام التوطين، والذي يتضمن تقسيم مربع إحاطة ثنائي الأبعاد إلى رموز إحداثيات أحادية البعد متعددة، ثم توليدها وفك تشفيرها واحدًا تلو الآخر. لا يقتصر الأمر على صعوبة هذا النهج في الحفاظ على اتساق الهندسة الداخلية لمربع الإحاطة، بل...علاوة على ذلك، فإن آلية التوليد التسلسلي الصارمة تحد من سرعة الاستدلال.عندما يحتاج نموذج ما إلى معالجة عدد كبير من الأهداف في وقت واحد، فغالباً ما يكون من الصعب تحقيق التوازن بين كفاءة تحديد الموقع ودقته.

استجابةً لهذه المشكلة المزمنة،أعلنت شركة NVIDIA مؤخرًا عن إصدار مفتوح المصدر لعضو جديد في سلسلة Eagle VLM - LocateAnything-3B.هذا نموذج لتحديد موقع اللغة المرئية يحتوي على 3 مليارات معلمة، ويدعم مهامًا متنوعة مثل اكتشاف الكائنات ذات المفردات المفتوحة، وتحديد موقع تعبير المؤشر، وتحديد موقع نص OCR، وتحديد موقع عناصر واجهة المستخدم الرسومية، وتحديد الهدف في الصور ومقاطع الفيديو، بهدف بناء إطار عمل موحد لتحديد الموقع والكشف المرئي.

يكمن الابتكار الأساسي في برنامج LocateAnything-3B في آلية جديدة تسمى فك تشفير الصندوق المتوازي (PBD). على عكس الطرق التقليدية التي تولد رموز الإحداثيات واحدة تلو الأخرى،يمكن لـ PBD التنبؤ بالعناصر الهندسية مثل المربعات المحيطة والنقاط الرئيسية كهيكل كامل في وقت واحد.لا يحافظ هذا التصميم على التناسق الهندسي داخل المربع المحيط فحسب، بل يحسن أيضًا بشكل كبير من إنتاجية فك التشفير، مما يتيح للنموذج تحقيق سرعة استدلال أسرع مع الحفاظ على قدرات تحديد المواقع عالية الدقة.

إلى جانب الابتكار المعماري، قامت NVIDIA أيضًا ببناء نظام تدريب واسع النطاق حول هذا النموذج. طور فريق البحث محرك بيانات قابل للتوسع وأطلق مجموعة بيانات LocateAnything-Data، التي تحتوي على أكثر من 138 مليون عينة تدريبية، تغطي مجالات متعددة مثل المشاهد الطبيعية، والروبوتات، والقيادة الذاتية، والتفاعل مع واجهة المستخدم الرسومية، وفهم المستندات، والتعرف الضوئي على الأحرف، مما يحسن بشكل كبير قدرة النموذج على التعميم في السيناريوهات المعقدة.

تُظهر النتائج التجريبية أن برنامج LocateAnything يحقق جودة تحديد موقع أعلى وسرعة فك تشفير أسرع في العديد من معايير تحديد الموقع المرئي، مما يدفع نماذج تحديد الموقع المرئي الموحدة إلى ما هو أبعد من المفاضلة التقليدية بين السرعة والدقة. بالنسبة لوكلاء واجهة المستخدم الرسومية سريعة التطور، وأنظمة التعليق التلقائي، ووكلاء الوسائط المتعددة من الجيل التالي، أصبحت هذه القدرة الفعالة والدقيقة على فهم المكان قدرةً أساسيةً على مستوى البنية التحتية.

حالياً، أطلق قسم البرامج التعليمية في الموقع الرسمي لشركة HyperAI (hyper.ai) "LocateAnything-3B: A Fast and High-Quality Visual Language Localization Model"، مما يقلل من عتبة النشر في شكل دفتر ملاحظات.

تشغيل عبر الإنترنت:https://go.hyper.ai/4l9jB

المزيد من الدروس التعليمية عبر الإنترنت:

https://hyper.ai/notebooks

نرحب بكم لزيارة موقعنا الإلكتروني الرسمي لمزيد من المعلومات:

https://hyper.ai

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لموقع hyper.ai، حدد صفحة "الدروس التعليمية"، أو انقر فوق "عرض المزيد من الدروس التعليمية"، وحدد "LocateAnything-3B: نموذج سريع وعالي الجودة لتحديد موقع اللغة المرئية"، وانقر فوق "تشغيل هذا البرنامج التعليمي".

2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد صور "NVIDIA RTX 5090" و "PyTorch"، وانقر فوق "متابعة تنفيذ المهمة".

4. انتظر حتى يتم تخصيص الموارد. بمجرد أن تتغير الحالة إلى "قيد التشغيل"، انقر فوق "فتح مساحة العمل" للدخول إلى مساحة عمل Jupyter.

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على ملف README الموجود على اليسار، ثم انقر على تشغيل في الأعلى.

2. بمجرد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين للانتقال إلى صفحة العرض التوضيحي.

ذات صلة الأخبار

مجموعة دروس OCR | تغطي المستندات الطويلة، والمعالجة الشاملة، والسيناريوهات متعددة اللغات، وتتميز بنماذج مفتوحة المصدر عالية الأداء من Baidu و Xiaohongshu و Huazhong University of Science and Technology وغيرها لسيناريوهات مختلفة، مما يتيح تحليلًا دقيقًا للمستندات متعددة الوسائط.

تقرير أسبوعي عن الأبحاث | يستكشف مشروع مايكروسوفت MAI-Thinking التطور الذاتي للتعلم المعزز الخالص، محققًا دقة AIME تبلغ 97%؛ ويحقق مشروع VLM³ تعميم المهام ثلاثية الأبعاد باستخدام إحداثيات نصية عادية دون تعديلات معمارية... نظرة سريعة على أحدث الأبحاث في مجال الذكاء الاصطناعي لهذا الأسبوع

برنامج تعليمي مجاني عبر الإنترنت لوحدة المعالجة المركزية | وكيل هيرمس: تعلم الذاكرة طويلة المدى؟ يمكن لملحق تحسين الذاكرة TencentDB Agent Memory تخزين الحقائق والتفضيلات وحالات المهام وما إلى ذلك بشكل منفصل.

دورة تعليمية عبر الإنترنت | تحليل سياقي لعشرات الصفحات من المستندات دفعة واحدة: برنامج بايدو مفتوح المصدر للتعرف الضوئي على الأحرف غير المحدود، إعادة هيكلة السيناريوهات المعقدة مع المستندات الطويلة

يحقق MiniCPM5-1B، الذي تم تدريبه باستخدام RL+OPD، أداءً متطورًا (SOTA) في مهام معقدة متعددة؛ تم إصدار مجموعة بيانات CHI-Bench لتقييم العوامل الطبية، المصممة لأتمتة عمليات الرعاية الصحية المعقدة.

ملخص مجموعة البيانات | مجموعات بيانات NVIDIA مفتوحة المصدر Nemotron: أكثر من 10 تيرابايت من الرموز + 40 مليون عينة تدريبية، تغطي الاستدلال الرياضي وتوليد التعليمات البرمجية والحوار متعدد اللغات.

هل يمكن للرموز التعبيرية التحكم في توليد الكلام؟ Irodori-TTS هو نظام تحويل النص إلى كلام ياباني يعتمد على بنية RF-DiT؛ مجموعات بيانات أمراض الجلد الأكزيما والسعفة: يدعم تصنيف الصور الطبية والتعلم بالنقل.

مع وصول دقة تقدير العمق إلى 0.9، اقترحت Meta نموذج VLM³، مما يدل على أن النماذج المرئية قادرة بطبيعتها على تعلم الأبعاد الثلاثية، وتحقيق نمذجة موحدة لمهام متعددة بناءً على Qwen3-VL-4B.

برنامج تعليمي عبر الإنترنت | تعديل ضخم باستخدام بطاقة SIM واحدة: MiniCPM-V-4.6، نموذج مفتوح المصدر بحجم 1.3 مليار يدعم فهم الصور/فهم الفيديو/التعرف الضوئي على الأحرف/الحوار متعدد الوسائط متعدد الأدوار (باستخدام Wallfacer ومكتبات مفتوحة المصدر أخرى).

HyperAI

برنامج تعليمي عبر الإنترنت | NVIDIA مفتوح المصدر LocateAnything، وهو نموذج 3B يمكّن من تحديد الهدف في الصور والفيديو، واكتشاف الكائنات ذات المفردات المفتوحة، وتحديد موقع الهدف، وتحديد موقع نص OCR، ووظائف أخرى.

منذ 2 أشهر

معالجة اللغة الطبيعية

الرؤية الحاسوبية

تشغيل عبر الإنترنت:https://go.hyper.ai/4l9jB

المزيد من الدروس التعليمية عبر الإنترنت:

https://hyper.ai/notebooks

نرحب بكم لزيارة موقعنا الإلكتروني الرسمي لمزيد من المعلومات:

https://hyper.ai

تشغيل تجريبي

3. حدد صور "NVIDIA RTX 5090" و "PyTorch"، وانقر فوق "متابعة تنفيذ المهمة".

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على ملف README الموجود على اليسار، ثم انقر على تشغيل في الأعلى.

2. بمجرد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين للانتقال إلى صفحة العرض التوضيحي.

ذات صلة الأخبار

مجموعة دروس OCR | تغطي المستندات الطويلة، والمعالجة الشاملة، والسيناريوهات متعددة اللغات، وتتميز بنماذج مفتوحة المصدر عالية الأداء من Baidu و Xiaohongshu و Huazhong University of Science and Technology وغيرها لسيناريوهات مختلفة، مما يتيح تحليلًا دقيقًا للمستندات متعددة الوسائط.

تقرير أسبوعي عن الأبحاث | يستكشف مشروع مايكروسوفت MAI-Thinking التطور الذاتي للتعلم المعزز الخالص، محققًا دقة AIME تبلغ 97%؛ ويحقق مشروع VLM³ تعميم المهام ثلاثية الأبعاد باستخدام إحداثيات نصية عادية دون تعديلات معمارية... نظرة سريعة على أحدث الأبحاث في مجال الذكاء الاصطناعي لهذا الأسبوع

برنامج تعليمي مجاني عبر الإنترنت لوحدة المعالجة المركزية | وكيل هيرمس: تعلم الذاكرة طويلة المدى؟ يمكن لملحق تحسين الذاكرة TencentDB Agent Memory تخزين الحقائق والتفضيلات وحالات المهام وما إلى ذلك بشكل منفصل.

دورة تعليمية عبر الإنترنت | تحليل سياقي لعشرات الصفحات من المستندات دفعة واحدة: برنامج بايدو مفتوح المصدر للتعرف الضوئي على الأحرف غير المحدود، إعادة هيكلة السيناريوهات المعقدة مع المستندات الطويلة

يحقق MiniCPM5-1B، الذي تم تدريبه باستخدام RL+OPD، أداءً متطورًا (SOTA) في مهام معقدة متعددة؛ تم إصدار مجموعة بيانات CHI-Bench لتقييم العوامل الطبية، المصممة لأتمتة عمليات الرعاية الصحية المعقدة.

ملخص مجموعة البيانات | مجموعات بيانات NVIDIA مفتوحة المصدر Nemotron: أكثر من 10 تيرابايت من الرموز + 40 مليون عينة تدريبية، تغطي الاستدلال الرياضي وتوليد التعليمات البرمجية والحوار متعدد اللغات.

هل يمكن للرموز التعبيرية التحكم في توليد الكلام؟ Irodori-TTS هو نظام تحويل النص إلى كلام ياباني يعتمد على بنية RF-DiT؛ مجموعات بيانات أمراض الجلد الأكزيما والسعفة: يدعم تصنيف الصور الطبية والتعلم بالنقل.

مع وصول دقة تقدير العمق إلى 0.9، اقترحت Meta نموذج VLM³، مما يدل على أن النماذج المرئية قادرة بطبيعتها على تعلم الأبعاد الثلاثية، وتحقيق نمذجة موحدة لمهام متعددة بناءً على Qwen3-VL-4B.

برنامج تعليمي عبر الإنترنت | تعديل ضخم باستخدام بطاقة SIM واحدة: MiniCPM-V-4.6، نموذج مفتوح المصدر بحجم 1.3 مليار يدعم فهم الصور/فهم الفيديو/التعرف الضوئي على الأحرف/الحوار متعدد الوسائط متعدد الأدوار (باستخدام Wallfacer ومكتبات مفتوحة المصدر أخرى).

Command Palette

تشغيل تجريبي

عرض التأثير

Command Palette

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

Command Palette

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

ذات صلة الأخبار

ذات صلة الأخبار