دراسة جديدة تشكك في مصداقية قائمة التقييم الرائدة للذكاء الاصطناعي LMArena
دراسة جديدة تشكو من تحيزات في لائحة تصنيف الذكاء الاصطناعي الرائدة قامت مجموعة من الباحثين من كوهير لابز ومعهد ماساتشوستس للتكنولوجيا وجامعة ستانفورد وغيرهما بتقديم دراسة تشير إلى أن LMArena، وهي اللائحة المرجعية الرائدة التي تعتمد التصويت الجماعي لتقييم نماذج الذكاء الاصطناعي، تمنح ميزات غير عادلة للشركات التقنية الكبرى. وقد يساهم هذا في تشويه الترتيبات التي يتم متابعتها على نطاق واسع. ردت LMArena على هذه الاتهامات بأنها تعكس تفضيلات المستخدمين الحقيقية، ولكن هذه المزاعم قد تضر بمصداقية المنصة التي تحدد كيفية إدراك النماذج. وبذلك، فإن هذه الدراسة تسليط الضوء على مشكلات في تقييم الذكاء الاصطناعي، وخاصة مع الفضيحة الأخيرة المتعلقة بقياس أداء Llama 4 Maverick. يتطلب تقييم الذكاء الاصطناعي بدقة النظر في العديد من العوامل، وليس فقط الترتيبات العامة التي قد تكون مضللة. مشروع لتحويل الأفكار المثيرة في الذكاء الاصطناعي إلى أعمال تدر أرباحًا تقدم منصة Innovating With AI مشروعًا جديدًا تحت اسم "The AI Consultancy Project" يوفر الإطارات والكتب العملية والقوالب الجاهزة للعملاء اللازمة لتحويل الأفكار المشوقة حول الذكاء الاصطناعي إلى أعمال تدر أرباحًا. يهدف المشروع إلى مساعدة المشاركون في الاستفادة من ازدهار استشارات الذكاء الاصطناعي المتوقع أن ينمو بمقدار ثماني أضعاف خلال هذا العقد. تشمل أنشطة البرنامج ما يلي: - تعلم كيفية تحويل الأفكار إلى حلول عملية. - فهم الأسواق وتحديد الفرص المناسبة. - وضع استراتيجيات لتطوير العملاء وتحقيق الإيرادات. أطلق مايكروسوفت ثلاثة نماذج جديدة في عائلة Phi أعلنت شركة مايكروسوفت مؤخرًا عن إطلاق ثلاثة نماذج جديدة تركز على القدرة على الاستدلال ضمن عائلة Phi، والتي تتفوق على نماذج أكبر في مهام الاستدلال المعقدة بينما تظل صغيرة بما يكفي لتشغيلها على الهواتف المحمولة والأجهزة المحمولة. هذه النماذج الجديدة ترفع مستوى الأداء في عائلة Phi الصغيرة ولكن القوية، مما يجعلها أكثر قابلية للتطبيق على الأجهزة المدمجة. الأهمية: - تحسين قدرة الأجهزة المحمولة على التعامل مع مهام الاستدلال المعقدة. - تقليل الاعتماد على السحابة، مما يتيح خصوصية أفضل وأداءً أسرع. - يمكن أن تحقق Copilot+ من مايكروسوفت أقصى استفادة من هذا التطور في القدرة على الاستدلال. إنشاء مواقع ويب باستخدام ChatGPT o3 و Canvas يقدم هذا الدليل خطوات لتعلم كيفية إنشاء تطبيقات ويب تعمل بشكل كامل وتتميز بقدرات قاعدة البيانات باستخدام ChatGPT o3 و Canvas، ومن ثم نشرها بشكل مجاني دون الحاجة إلى مهارات البرمجة. يتيح هذا الدليل للمستخدمين الفرصة لإنشاء تطبيقات صغيرة تتمكن من حفظ بيانات المستخدم بين الجلسات، حتى بعد النشر، مما يجعلها مثالية للاستخدامات المحدودة. وظائف Sue، وكيل الذكاء الاصطناعي من Conveyor بينما يتحدث معظم البائعين الذين يعتمدون على الذكاء الاصطناعي عن فوائد منتجاتهم، فإن Sue، وكيل الذكاء الاصطناعي من Conveyor، يقوم بالفعل بالأعمال. يتم نشر Sue عبر الشركات الكبرى في فورتشن 1000 لتنفيذ مراجعات الأمان الخاصة بالعملاء بشكل كامل، وتجنب الأعمال الروتينية، والحفاظ على سير الصفقات دون مشاكل أو تأخيرات. يمكن لـ Sue القيام بما يلي: - إدارة مراجعات الأمان للعملاء بشكل فعال. - الحد من الأعمال الروتينية وتحسين الكفاءة. - تسريع العمليات التجارية وتسهيل تجربة العملاء. أمازون تطلق Nova Premier، نموذج الذكاء الاصطناعي الأكثر تقدمًا أطلقت أمازون حديثًا Nova Premier، وهو النموذج الأكثر تقدمًا للشركة حتى الآن، والمصمم لمعالجة المهام المعقدة ولعب دور "المعلم" في تحسين نماذج أصغر لتطابق قدراته. يستهدف هذا النموذج الجديد تحسين أداء العائلة بأكملها من النماذج، مما يشير إلى التركيز على تحسين الكفاءة والأداء المحدد للمهام، بدلاً من منافسة النماذج الرائدة في مهام الاستدلال المعقدة مباشرة. الأهمية: - رفع مستوى الأداء الكلي للنماذج الأصغر. - تقليل تكلفة التدريب والتنفيذ. - تحسين المرونة في استخدام الذكاء الاصطناعي لمهام محددة. انضم إلى ورشة العمل الحية القادمة مع الدكتور ألفارو سينتاس دعونا ندعوكم للانضمام إلى ورشة العمل الحية القادمة التي ستقام اليوم في الساعة الرابعة مساءً بتوقيت شرق الولايات المتحدة، بمشاركة الدكتور ألفارو سينتاس، أستاذ الذكاء الاصطناعي في The Rundown. ستتعلم في هذه الورشة كيف يمكنك استخدام Google NotebookLM لتحسين بحثك ودراستك وتدريسك.