HyperAI

أطلقت نفيديا نموذجًا أساسيًا ثوريًا للذكاء الاصطناعي المادي، يُعرف باسم كوزموس 3، الذي يهدف إلى تمكين الأنظمة الفيزيائية مثل الروبوتات والمركبات ذاتية القيادة والفصول الذكية من فهم العالم من حولها والتنبؤ بالحوادث المستقبلية وتوليد أفعال مناسبة. يُعد هذا النموذج خطوة جوهرية في تطوير الذكاء الاصطناعي المادي، حيث يجمع بين القدرة على الاستدلال الفيزيائي، وتوليد العالم، وتوليد الأفعال في نموذج واحد مفتوح بدلاً من نماذج متعددة منفصلة. يعتمد كوزموس 3 على بنية معمارية فريدة تسمى "مجموعة المحولات" (Mixture-of-Transformers)، والتي تسمح بنموذج واحد موحد يقوم بجميع المهام، مما يبسط عملية التطوير ويزيل الحاجة إلى تنسيق معقد بين عدة نماذج وأنظمة استنتاج. تتفاوت أحجام النماذج المتاحة لتتناسب مع احتياجات مختلفة، حيث يتضمن إطلاق كوزموس 3 نموذجي "سوبر" و"نانو" لدعم نطاق واسع من التطبيقات بدءًا من الروبوتات وحتى المراقبة اللوجستية. يدعم النموذج مدخلات ومخرجات متعددة الوسائط بشكل متكامل، مما يمكنه معالجة النصوص والصور والفيديوهات معًا. يتيح ذلك للمستخدمين توليد فيديوهات واقعية تخضع لقوانين الفيزياء، أو التنبؤ بمسار الأحداث بناءً على بيانات بصرية ونصية، أو حتى التحكم في حركة الروبوتات من خلال نماذج مخصصة للإجراءات. تم تصميم كوزموس 3 ليعمل في مجالات متنوعة تشمل الروبوتات، والقيادة الذاتية، ومراقبة المستودعات، والتدريب الفيزيائي. كما أصدرت الشركة سادسة مجموعات بيانات اصطناعية جديدة مفتوحة المصدر على منصة هوجنج فاس، تغطي مشاهد الروبوتات، والتفاعلات الفيزيائية، والاستدلال المكاني، وحركة الإنسان، ومواقف القيادة، وعمليات المستودعات. هذه المجموعات مخصصة لتدريب وتحسين النماذج، وتسمح للباحثين والمطورين بإعادة إنتاج النتائج والبناء عليها. لتقييم جودة النموذج بدقة، طورت نفيديا إطار عمل "التقييم البشري" (HUE)، الذي يحول معايير التقييم من التقييم الذاتي إلى التحقق الفعلي من الحقائق. يعتمد الإطار على تحليل فيديوهات مولدة عبر أسئلة نعم أو لا تغطي أبعادًا مثل التوافق الدلالي، وقوانين الفيزياء، والاستدلال الهندسي، وسلامة العناصر المرئية. أثبتت نتائج التقييمات أن كوزموس 3 يتفوق في معايير متعددة على منصات عالمية، بما في ذلك VANTAGE-Bench وR-Bench وPAIBench-G. يأتي الإصدار مع وصفات تدريب مفتوحة بالكامل، تمكن المطورين من تكييف النموذج مع مجالاتهم الخاصة عبر خطوات التدريب الدقيق supervised Fine-Tuning، سواء للتعامل مع بيانات الفيديو المخصصة أو لتوليد سياسات تحركية للروبوتات. كما توفر الشركة خدمات صغرية جاهزة للإنتاج عبر NVIDIA NIM، التي توفر بيئات تشغيل محسّنة للاستدلال دون الحاجة إلى تعقيدات البنية التحتية، مع التركيز على النموذج "المستنتج" كمرحلة أولية، بينما تُعد الإصدارات الكاملة مولدة للفيديو قيد التطوير. يهدف هذا الإطلاق إلى تسريع تطوير الذكاء الاصطناعي المادي وجعله متاحًا بشكل أوسع، من خلال توفير أدوات مفتوحة، وبيانات شاملة، ومنصات تنفيذ موحدة، مما يسهل على الفرق البدء في بناء حلول متقدمة للذكاء الاصطناعي الذي يتفاعل بفعالية مع العالم الحقيقي.

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

Command Palette

NVIDIA تطلق Cosmos 3 لتطوير نماذج الذكاء المادي

الروابط ذات الصلة

Command Palette

NVIDIA تطلق Cosmos 3 لتطوير نماذج الذكاء المادي

الروابط ذات الصلة

Command Palette

NVIDIA تطلق Cosmos 3 لتطوير نماذج الذكاء المادي

الروابط ذات الصلة