NVIDIA تقدم ورشة عمل عملية في GTC باريس لتطوير نماذج اللغة الطبيعية متعددة اللغات وتخصيصها للقطاعات المحددة
NVIDIA Deep Learning Institute تقدم تدريبًا متعدد اللغات على الذكاء الاصطناعي في مؤتمر GTC بباريس تتمتع النماذج اللغوية الكبيرة (LLMs) بقدرات متعددة، بما في ذلك التعرف على اللغة، تلخيص النصوص، الترجمة، التنبؤ، وإنشاء محتوى جديد. ومع ذلك، فإن حتى أكثر هذه النماذج قوة تواجه تحديات عند التعامل مع المعرفة التجارية المتخصصة، المجالات الفنية الضيقة، أو السياقات اللغوية والثقافية المتنوعة في العمليات العالمية. لماذا تقييم النماذج متعددة اللغات مهم تقييم النماذج هو أمر حاسم للمشاركة في اختيار النموذج، تطويره، وتعديله. يساعد في موازنة التكلفة، زمن الاستجابة، وجودة الأداء خلال مراحل التدريب الأولى، التعديل الدقيق، والاستدلال. بالنسبة للنماذج اللغوية الكبيرة التي تعتمد على التفاعل باللغة الطبيعية، فإن تقييمها بمختلف اللغات يصبح أكثر أهمية. على سبيل المثال، يستخدم حوالي نصف الأوروبيين الإنجليزية كلغة ثانية، ولكن الملايين ما زالوا يفضلون التفاعل بلغاتهم الأم. ومع ذلك، يتم تدريب نماذج مثل Llama 2 على أقل من 5% من البيانات غير الإنجليزية (الرسوم 1)، مما يؤدي إلى فجوات في الدقة، الدقة الثقافية، والعدالة. بدون اختبار دقيق، يمكن أن يكون تصنيف النموذج بأنه متعدد اللغات مضلّلًا ويسبب مشاكل في التنفيذ باهظة الثمن. التحديات في تدريب وتقييم النماذج متعددة اللغات تتضمن بعض التحديات الرئيسية في تدريب وتقييم النماذج متعددة اللغات: معياريات مجزأة: لا يوجد مجموعة بيانات مشتركة ومتجانسة تغطي 24 لغة رسمية في الاتحاد الأوروبي وأصنافها المحلية. تختلف المجموعات الموجودة في تصميم المهام والمقاييس، مما يجعل المقارنة بين النتائج صعبة. الترجمة الآلية: يتم ترجمة العديد من المعايير آليًا من الإنجليزية، مما يدخل صياغات غير طبيعية تشوه النتائج. عدم التوازن في المهام: تهيمن المهام التمييزية (اختيار من متعدد، تصنيف) على المهام الإنتاجية (تلخيص، أسئلة مفتوحة)، بينما تدعم الأخيرة معظم التطبيقات الواقعية. فخاخ المقاييس: تعاقب المقاييس السطحية مثل BLEU و ROUGE الترتيبات الصحيحة للكلمات. على سبيل المثال، "المarket مفتوح اليوم" مقابل "اليوم market مفتوح". جمع مقاييس متنوعة في رقم واحد رئيسي يزيد من التحيز. كفاءة شاملة: الشمولية الحقيقية في التحدث تغطي ما لا يقل عن 10 أبعاد: نحو، مفردات، كفاءة ثقافية، معرفة متخصصة، خطاب، تحيز، صلة زمنية، تنويع اللهجة، معالجة النص، واتساق طويل الأمد. تلمس الاختبارات الحالية فقط مجموعة جزئية من هذه الأبعاد. ورشة العمل من NVIDIA DLI: إضافة معرفة جديدة إلى LLMs تقدم NVIDIA Deep Learning Institute ورشة عمل يومية كاملة بقيادة مدربين في مؤتمر GTC بباريس، بعنوان "إضافة معرفة جديدة إلى LLMs". خلال هذه الورشة، ستتعلم المهارات اللازمة لتحويل النماذج اللغوية الكبيرة المفتوحة المصدر إلى أصول ذكاء اصطناعي متخصصة وخالية من الحواجز اللغوية. ستعمل على المهام الأساسية الأربعة التالية لإتقان دورة حياة تعديل النموذج بالكامل: المهمة 1 – التقييم المنهجي وإنشاء مجموعة البيانات: اكتشف كيفية بناء معايير تقييم مخصصة باستخدام NVIDIA NeMo Evaluator لتحديد القيود الفعلية لنموذج LLM، سواء في فهم المفاهيم المتخصصة أو في أدائه عبر اللغات المختلفة. ستتعلم تتبع تقدم الهندسة بشكل فعال وتعريف المقاييس التي تلخص ما يهم في حالتك الخاصة، سواء كان ذلك الدقة المتخصصة أو الفهم المتعدد اللغات الدقيق. المهمة 2 – إدارة البيانات المتقدمة: تطبق أنابيب تنظيف وإعداد البيانات الأكثر حداثة باستخدام NeMo Curator. ستتعلم تجميع قواعد بيانات عالية الجودة مخصصة لاحتياجاتك الفريدة، والتي تتضمن معلومات متخصصة ومحتوى متعدد اللغات. هذا يشمل استراتيجيات جمع البيانات الضيقة ومكافحة التعقيدات المتعلقة باللغات المتعددة، النصوص، والسياقات الثقافية. المهمة 3 – حقن المعرفة المستهدفة: تتقن تقنيات التكيف القوية لتعزيز نموذج LLM بمعرفة وقدرات جديدة. ستستكشف كيفية تعزييز خبرة النموذج وتأثيره العالمي بشكل كبير. المهمة 4 – تحسين النموذج للقطاع واللغة: تطبق تقنيات التقطير، التكميم، وتخفيف القيود المتقدمة باستخدام NVIDIA NeMo Model Optimizer و NVIDIA TensorRT-LLM. التركيز سيكون على تقليل تكاليف الاستدلال بشكل كبير وتحسين الكفاءة التشغيلية، مع ضمان الحفاظ على الأداء العالي في مهام القطاع الخاص وحفظ القدرات القوية عبر جميع اللغات المستهدفة، بما في ذلك اللغات ذات الموارد المحدودة. بإتمام هذه الدورة، ستكون لديك المهارات اللازمة لتطوير، تنفيذ، وتشغيل أنظمة ذكاء اصطناعي مخصصة لاحتياجاتك الخاصة ومتعددة اللغات، مستعدة لتقديم تجارب أكثر دقة، صلة، وصدقاً ثقافيًا لجمهور عالمي. التأثير الحقيقي لتطوير الذكاء الاصطناعي متعدد اللغات تعمل NVIDIA مع المنظمات حول العالم لتطوير قواعد بيانات وأنماط أفضل مع قدرات متعددة اللغات قوية. شهد الشركاء بالفعل نتائج مهمة. على سبيل المثال، أدت التعاونات مع مجموعات مثل مركز برشلونة للحوسبة الفائقة إلى تحسينات كبيرة في دقة المهام الخاصة باللغات. كذلك، أدى التعاون مع مبادرات مثل EuroLLM إلى تطوير نماذج ذكاء اصطناعي متعددة اللغات قوية مثل EuroLLM 9B Instruct، الذي يدعم جميع اللغات الرسمية في الاتحاد الأوروبي ويفوق في المهام مثل الإجابة على الأسئلة، التلخيص، والترجمة عبر الأسواق اللغوية المتنوعة. هذه الجهود المشتركة تعد جزءًا مهمًا من تقدم الذكاء الاصطناعي متعدد اللغات. انضم إلى الورشة لاستكشاف الأنابيب التي تجعل هذه التطورات ممكنة. انضم إلينا في NVIDIA GTC بباريس يبدأ طريقك لامتلاك الذكاء الاصطناعي متخصص وخالي من الحواجز اللغوية في NVIDIA GTC بباريس. لبدء التجربة العملية، احجز مقعدك لحضور ورشة العمل "إضافة معرفة جديدة إلى LLMs". هل أنت مستعد للمزيد؟ شاهد هذه الجلسات المتعلقة بـ GTC بباريس: بناء، تقييم، وتوسيع نطاق LLMs متعدد اللغات في الممارسة العملية [CWEP1103]: يشرح الخبراء من NVIDIA كيفية تخصيص نماذج اللغة بإضافة معرفة جديدة، تمديد قدراتها في المجالات التجارية، الهندسية، أو العلمية المتخصصة، والتكيف مع لغات، ثقافات، وقيم جديدة، وحتى عندما تكون الفهم الأساسي مفقودًا في البداية. بناء وتخصيص نماذج الذكاء الاصطناعي للتطبيقات الأوروبية: من الأساس إلى التعديل الدقيق [GP1046]: تناقش هذه الجلسة الرؤية والإطارات الاستراتيجية لبناء نماذج LLMs سيادية متناسقة مع النسيج الثقافي، الاقتصادي، والاجتماعي لأوروبا، مع مشاركة رؤى من رواد بناء النماذج الأوروبية مثل BSC و EuroLLM، بالإضافة إلى التطبيقات العملية من ThinkDeep. تقييم الحدث من قبل المتخصصين يشير خبراء الذكاء الاصطناعي إلى أن ورشة العمل هذه تمثل خطوة مهمة في تطوير النماذج اللغوية الكبيرة لتلبية احتياجات السوق العالمية. من خلال توفير التدريب العملي والمعرفة المتعمقة، يمكن للشركات والمؤسسات أن تحقق تقدمًا حقيقيًا في تخصيص هذه النماذج لتطبيقاتها الخاصة، مما يعزز الدقة والملاءمة الثقافية في تجربة المستخدم. نبذة عن NVIDIA NVIDIA هي شركة رائدة في مجال تقنيات الذكاء الاصطناعي والحوسبة الفائقة. تركز الشركة على تطوير حلول مبتكرة لتحديات الذكاء الاصطناعي، مثل تحسين أدائها في المجالات المتخصصة واللغات المتنوعة. يهدف مؤتمر GTC إلى تسخير هذه التقنيات لخدمة الصناعة والأبحاث، مما يجعله حدثًا سنويًا مهمًا للمهتمين بالتكنولوجيا والذكاء الاصطناعي.