HyperAI超神经

OpenAI가 개발한 AI 모델 o3가 새로운 AI 리그 테이블에서 과학 질문에 답하는 최고의 도구로 선정되었습니다. 이 리그 테이블은 지난 주 출시된 SciArena 플랫폼을 통해, 자연과학, 의료, 공학, 인문사회과학 등 다양한 분야의 과학 질문에 대한 답변 품질을 평가한 결과입니다. 시애틀 워싱턴에 위치한 알렌 인공지능 연구소(Ai2)가 개발한 SciArena는 102명의 연구자가 참여하여 23개의 대형 언어 모델(LLM)을 평가했습니다. 총 13,000표 이상이 투표되었으며, o3는 모든 분야에서 가장 높은 평점을 받았습니다. 두 번째로 뛰어난 성능을 보인 모델은 중국 항저우에 본사를 둔 DeepSeek가 개발한 DeepSeek-R1으로, 자연과학 분야에서는 두 번째, 공학 분야에서는 네 번째를 차지했습니다. 구글의 Gemini-2.5-Pro는 자연과학 분야에서 세 번째, 공학과 의료 분야에서는 다섯 번째를 기록했습니다. o3의 성공 이유는 상세한 문헌 인용과 기술적으로 정교한 답변 때문일 수 있습니다. Ai2의 연구 과학자 아르만 코한(Arman Cohan)은 이와 같은 모델들의 성능 차이를 설명하기 어려울 뿐이라고 말합니다. 대부분의 모델이 소유권이 보호되어 있어, 훈련 데이터의 차이나 모델이 최적화된 방식 등이 성능 차이를 부분적으로 설명할 수 있다고 덧붙였습니다. SciArena는 특정 작업에서 AI 모델의 성능을 평가하기 위한 최신 플랫폼 중 하나이며, 과학 관련 작업에서 크라우드소싱 피드백을 사용해 성능을 순위 매기는 첫 번째 플랫폼 중 하나입니다. 캔버라에 위치한 호주 국립대학교의 로봇공학 및 AI 연구원 라후Ł 쇼메(Rahul Shome)는 "SciArena는 LLM 지원 문헌 작업의 신중한 평가를 유도하는 긍정적인 시도"라고 평가했습니다. 23개의 LLM을 순위 매기기 위해 SciArena는 연구자들에게 과학 질문을 제출하도록 요청했습니다. 연구자들은 Semantic Scholar라는 AI 연구 도구(Ai2가 개발)에서 인용된 자료를 바탕으로 두 개의 무작위로 선택된 모델로부터 답변을 받았습니다. 사용자들은 한 모델이 최선의 답변을 제공했는지, 두 모델이 비슷했는지 또는 모두 성적이 좋지 않았는지를 투표할 수 있었습니다. SciArena는 이제 일반 사용자에게 무료로 제공되며, 모든 사용자는 두 개의 모델로부터 답변을 받고 그 성능을 평가할 수 있습니다. 그러나 리더보드에 포함되는 투표는 이용 약관에 동의한 검증된 사용자들에 한정됩니다. 회사측은 리더보드를 자주 업데이트할 계획이라고 밝혔습니다. AI 연구원 조나단 커머펠드(Jonathan Kummerfeld)는 "과학 주제에 대해 LLM에게 질문하고 그 답변에 신뢰를 가질 수 있는 능력은 연구자들이 자신의 분야에서 최신 문헌을 따라잡는데 도움이 될 것"이라고 말했습니다. "이는 연구자들이 놓칠 수도 있는 연구 작품을 찾는 데 도움이 될 것입니다." SciArena의 출시는 AI 모델의 과학적 응용 가능성을 더욱 강조합니다. 과학 분야에서 정확하고 신뢰할 수 있는 정보를 제공하는 AI 도구의 필요성이 증가함에 따라, 이러한 플랫폼은 연구자들이 효과적으로 정보를 필터링하고 활용할 수 있도록 돕는 중요한 역할을 할 것으로 기대됩니다. 또한, SciArena는 AI 모델들이 어떻게 발전하고 있으며, 어떤 분야에서 가장 우수한 성능을 보이는지를 이해하는데 큰 도움이 될 것입니다. industry insiders, such as Arman Cohan and Rahul Shome, agree that the platform's approach to crowdsourcing feedback is innovative and could significantly impact the way researchers interact with AI in the future. OpenAI, known for its development of advanced AI systems like ChatGPT, continues to lead in the field with o3, demonstrating its commitment to providing high-quality, reliable AI solutions. Meanwhile, companies like DeepSeek and Google are also making notable strides, contributing to the rapid advancement of AI in scientific research.

OpenAI의 o3, 과학 질문 응답 최고 AI로 선정

Related Links