HyperAIHyperAI

Command Palette

Search for a command to run...

كيف تبني إنفيديا بيانات مفتوحة للذكاء الاصطناعي

تسعى نفيديا إلى تسريع تطوير أنظمة الذكاء الاصطناعي الموثوقة من خلال توفير بيانات مفتوحة المصدر، معتبرة أن جودة البيانات هي العامل الحاسم في سلوك النماذج وقدراتها المنطقية والبيئية. تواجه الصناعة اليوم تحديات كبيرة تتمثل في تكاليف جمع البيانات وتقييمها، حيث تستغرق العمليات شهورًا أو سنوات وتكلف ملايين الدولارات. لتجاوز هذه المعوقات، أطلقت الشركة أكثر من 180 مجموعة بيانات مفتوحة تغطي تريليونات من البيانات الخام، متاحة للتنزيل فورًا مع أدلة تدريب وأطر تقييم. تغطي هذه البيانات مجالات متنوعة تشمل الروبوتات، والذكاء السيادي، والبيولوجيا، وأطر التقييم. ومن أبرز المجموعات المجموعة الخاصة بالذكاء الجسدي التي توفر أكثر من 500 ألف مسار روبوتي و15 تيرابايت من البيانات متعددة الوسائط، وقد تم تحميلها أكثر من 10 ملايين مرة من قبل شركات مثل Runway وLightwheel. كما تحتوي المجموعة على بيانات قيادية متنوعة جغرافيًا من 25 دولة و2500 مدينة لتعزيز أنظمة القيادة الذاتية. فيما يتعلق بالبيانات التوليدية، تطلق نفيديا مجموعة "نيوترون" التي توفر شخصيات اصطناعية تنتمي لديموغرافيات حقيقية، مما يدعم تطوير الذكاء السيادي. استخدمت شركة CrowdStrike هذه البيانات لتحسين دقة الترجمة من 50.7% إلى 90.4%، بينما استفادت شركات يابانية في القطاع القانوني من دقة الإجابة من 15.3% إلى 79.3% مع تقليل معدلات الهجوم بشكل كبير. كما ساهمت البيانات في تطوير نماذج لغوية متقدمة مثل Nemotron-Nano-9B-v2-Japanese. تشمل الإصدارات مجموعة "لا بروتينا" للبيانات البيولوجية التي تحتوي على 455 ألف هيكل بروتيني صناعي لتسريع اكتشاف الأدوية، بالإضافة إلى معيار "SPEED-Bench" لتقييم سرعة فك التشفير في النماذج. كما توفر مجموعة بيانات استرجاعية صناعية لتدريب أنظمة RAG، حققت تحسينات كبيرة في دقة الاستدلال مع إمكانية توليد البيانات وتدريب النماذج خلال أيام فقط. تتضمن استراتيجية نفيديا أيضًا مجموعات بيانات لتدريب نماذج "نيوترون" على الرياضيات والبرمجة، حيث تم تطوير مجموعات ما قبل وبعد التدريب لتعزيز القدرات المنطقية والمعالجة متعددة اللغات. وقد ساهمت هذه البيانات في نجاح نماذج مثل Primus-Labor وApriel وSmolLM3. تعتمد الشركة نهج "التصميم المشترك المتطرف" الذي يجمع بين خبراء البيانات والباحثين والمهندسين لتصميم المكونات معًا، مما يسمح بإجراء تحسينات مستمرة بناءً على ملاحظات المجتمع والشركاء. تستمر نفيديا في التعاون مع اتحادات مثل ViDoRe وCVDP لتطوير معايير تقييم مشتركة، وتؤكد أن الجيل القادم من أنظمة الذكاء الاصطناعي يعتمد على أساسات مشتركة وشفافة. يشجع الجميع على استكشاف هذه البيانات ومشاركتها على منصة Hugging Face والمشاركة في مجتمع نيموترون لتعزيز تطور الذكاء الاصطناعي بشكل جماعي.

الروابط ذات الصلة

كيف تبني إنفيديا بيانات مفتوحة للذكاء الاصطناعي | القصص الشائعة | HyperAI