تصنيف م_models لغوية للوكيل الذكي في المجالات الرئيسية: البنوك والرعاية الصحية والاستثمار والتأمين والاتصالات
ملخص تقييم أداء نماذج اللغة في إطار عمل وكيل الذكاء الاصطناعي الخلفية طورت شركة Galileo AI إطار عمل معياري لتقييم أداء نماذج اللغة في سياق وكيل الذكاء الاصطناعي (AI Agent) ضمن مجالات مختلفة، بما في ذلك البنوك، الرعاية الصحية، التأمين، الاستثمار، والاتصالات. يتم تقييم النماذج باستخدام نفس الإطار والتكوين القياسي، مما يشمل خط أنابيب محاكاة ثابتة تتكون من الوكيل الاصطناعي (النموذج اللغوي المحاكم)، محاكاة المستخدم لحوار الديناميكي متعدد الأدوار، ومحاكاة الأدوات للتعامل مع الدعوات للأدوات بناءً على مخططات JSON محددة مسبقًا. معايير التقييم يتم تقدير النماذج بناءً على معايير رئيسية مثل: - إكمال الفعل (Action Completion - AC): مدى قدرة النموذج على إكمال المهام المطلوبة بدقة. - جودة اختيار الأداة (Tool Selection Quality - TSQ): مدى فعالية النموذج في اختيار الأدوات المناسبة لأداء المهام. يتم إجراء التجارب بالتوازي لضمان العدالة والإمكانية التكرارية في عملية التقييم، مع عدم وجود أي اختلافات في التعامل مع النماذج، مما يؤكد أن كل نموذج يتكامل بشكل موحد. عناصر الإطار محاكاة المستخدم (User Simulator): مكون ذكاء اصطناعي يلعب دور شخصيات مستخدمين ديناميكية ويتولى إدارة حوارات متعددة الأدوار ذات أهداف مترابطة. محاكاة الأدوات (Tool Simulator): يستجيب لدعوات الأدوات من الوكيل الاصطناعي بناءً على مخططات JSON المحددة مسبقًا، مما يحاكي التفاعلات الحقيقية للأدوات. مكونات التقييم: يُستخدم نظام Claude من Anthropic لإنشاء أدوات/شخصيات، التحقق من صحة المخططات، وحساب جودة اختيار الأداة عبر محفزات المنطق. يتم استخدام Claude أيضًا لإنشاء مجموعة البيانات وتقييم المعايير، لكن الهندسة المعمارية الكلية مطبقة بشكل مخصص بدون ربط بأطر عمل وكلاء خارجية مثل LangChain، LlamaIndex، CrewAI، أو LangGraph. الهيكلية المحاكية يتيح الإطار حوارًا متعدد الأدوار مع أهداف مستخدم مترابطة، مما يدعم صنع القرار التتابعي والحفاظ على السياق. هذا يسمح للنماذج بالتكيف بناءً على التفاعلات السابقة ومخرجات الأدوات، مما يعزز أدائها في السيناريوهات المعقدة دون تصحيح الأخطاء الصريحة، محاولات إعادة، أو تدخلات خارجية. المساعدات القياسية يقدم الإطار بعض المساعدات القياسية للنماذج، وهي مصممة لتحقيق تقييم عادل لقدراتها الأصلية وليس تعديلها بشكل جوهري. على وجه الخصوص: - المحفزات المخصصة: يتم إعطاء كل نموذج محفز نظام يبدأ به المحاكاة، والذي يتضمن وصف الأدوات المتاحة (محددة بمخططات JSON). - هذه المحفزات توجه النموذج على كيفية التفاعل كوكيل ذكاء اصطناعي، ولكنها إعدادات أساسية مشتركة في تقييمات اختيار الأدوات ولا تتضمن تقنيات متقدمة مثل سلسلة الفكر أو محفزات المنطق المتخصصة. نتائج وإشارات مهمة الأداء الفردي: رغم عدم استخدام الإطار لتنسيق نماذج متعددة لتكوين وكيل ذكاء اصطناعي واحد، فإن اختبار النماذج بشكل فردي لا يزال ذو قيمة عالية. النماذج مفتوحة المصدر: من المثير للاهتمام رؤية ثلاثة نماذج مفتوحة المصدر في المراتب الثلاث الأولى، مما يتيح للمطورين تشغيل اختباراتهم الخاصة وتقييماتهم. التكيف مع البيئات التجارية: هناك بحوث حديثة تظهر كيف أن بعض النماذج تتفوق في بيئات وكيل الذكاء الاصطناعي معينة، مما يجب الأخذ في الاعتبار عند اختيار النماذج. مستقبل النماذج اللغوية: يبدو أن المستقبل سيكون لنماذج اللغة الأصغر التي تخضع للتuning المستمر وبيئة تنسيق متعدد النماذج. تقييم الخبراء يعد هذا الإطار مرجعيًا قياسيًا مهمًا للشركات التي تخطط لتبني وكيل الذكاء الاصطناعي، حيث يوفر تقييمًا شاملًا وموضوعيًا لقدرات النماذج اللغوية في مجالات مختلفة. كما أنه يساعد في تحديد أفضل الخيارات بناءً على المتطلبات الخاصة لكل شركة، مثل التأخير والتكلفة وعدد الدورات. القدرة على تشغيل اختبارات خاصة باستخدام الكود مفتوح المصدر والبيانات المتاحة يعد ميزة إضافية تزيد من قيمة هذا الإطار للباحثين والمطورين. نبذة عن Galileo AI Galileo AI هي شركة متخصصة في تطوير تقنيات الذكاء الاصطناعي، تركز على تقييم وتحسين أداء النماذج اللغوية في بيئات تطبيقية حقيقية. تهدف الشركة إلى تقديم حلول مبتكرة تساعد الشركات على الاستفادة القصوى من الذكاء الاصطناعي في مجالات متعددة، وذلك من خلال إنشاء أدوات وأطر عمل تقييمية موثوقة وشفافة.