o3 من OpenAI يتفوق في اختبارات الإجابات العلمية على 23 نموذجًا للذكاء الصناعي
وفقًا لمنصة تقييم جديدة تم إطلاقها الأسبوع الماضي، حازت أداة الذكاء الاصطناعي o3، التي طورتها OpenAI في سان فرانسيسكو بولاية كاليفورنيا، على المركز الأول في الإجابة على الأسئلة العلمية في مجالات متعددة. منصة SciArena، التي طورتها معهد Ai2 للذكاء الاصطناعي في سياتل بواشنطن، قدمت تصنيفًا لأداء 23 نموذجًا من نماذج اللغات الكبيرة (LLMs) في الإجابة على الأسئلة العلمية. أجرت هذه المنصة استفتاءً شارك فيه 102 باحث، وحصلت o3 على أكثر من 13,000 تصويت، مما جعلها تحتل المركز الأول في الإجابة على أسئلة العلوم الطبيعية، الرعاية الصحية، الهندسة، والعلوم الإنسانية والاجتماعية. حلّت أداة DeepSeek-R1، التي طورتها DeepSeek في هانغتشو بجمهورية الصين الشعبية، في المركز الثاني في الإجابة على أسئلة العلوم الطبيعية وفي المركز الرابع في الهندسة. أما نموذج Gemini-2.5-Pro من شركة جوجل، فقد احتل المركز الثالث في العلوم الطبيعية والخامس في الهندسة والرعاية الصحية. يرجع تفضيل المستخدمين لأداة o3 إلى قدرتها على تقديم تفاصيل دقيقة عن المصادر التي تعتمد عليها وإنتاج إجابات تقنية غنية بالتفاصيل، حسبما أشار أرمان كوهان، الباحث العلمي في معهد Ai2. ومع ذلك، فإن شرح الأسباب وراء اختلاف أداء النماذج يشكل تحديًا لأن معظمها ذاتية الملكية. يمكن أن تساهم عوامل مثل الاختلافات في بيانات التدريب وما تم تحسينه من أجله النموذج في تفسير هذا التفاوت، كما يوضح كوهان. تعتبر SciArena أحدث منصة تم تطويرها لتقدير مدى أداء نماذج الذكاء الاصطناعي في مهام معينة، وهي واحدة من أولى المنصات التي تقوم بتقديم ترتيب لأداء هذه النماذج في المهام العلمية باستخدام آراء المستخدمين. يرى راهول شوم، الباحث في الروبوتات والذكاء الاصطناعي في جامعة أستراليا الوطنية بكانبرا، أن "SciArena هي جهد إيجابي يحفز على تقييم دقيق لمهام الأدب التي تساعد عليها نماذج اللغات الكبيرة". لترتيب النماذج البالغ عددها 23، طلبت SciArena من الباحثين تقديم أسئلة علمية. ثم تلقى الباحثون إجابات من نموذجين تم اختيارهما عشوائيًا، وقد دعمت هذه الإجابات بمراجع مستخرجة من Semantic Scholar، وهو أداة بحثية في الذكاء الاصطناعي طورتها أيضًا Ai2. بعد ذلك، قام المستخدمون بالتصويت على أي من النموذجين قدم أفضل إجابة، أو كانت الإجابات متساوية، أو كان أداؤهما سيئًا. باتت المنصة متاحة الآن للجمهور، وتتيح للمستخدمين طرح أسئلة بحثية والاستفادة من إجابات مجانية. يحصل جميع المستخدمين على إجابات من نموذجين ويتم السماح لهم بالتصويت على أدائهما، لكن فقط أصوات المستخدمين الموثقين الذين وافقوا على الشروط يتم تضمينها في جدول الترتيب، والذي تعهدت الشركة بتحديثه بشكل متكرر. يضيف جوناثان كومرفيلد، الباحث في الذكاء الاصطناعي بجامعة سيدني في أستراليا، أن "قدرة الباحثين على طرح أسئلة على نماذج اللغات الكبيرة حول موضوعات العلم والثقة في الإجابات ستساهم في مساعدة الباحثين على مواكبة أحدث الأبحاث في مجالاتهم". ويؤكد أن هذا سيكون مفيدًا للباحثين في العثور على أعمال قد يغفلون عنها بخلاف ذلك.