DeepMind, OpenAI AI 수학 문제 세계 최상위 수준 해결
DeepMind과 OpenAI의 모델이 수학 문제를 최상위 고등학생 수준으로 풀어냈다. 7월 21일 DeepMind은 자사 소프트웨어가 국제 수학 올림피아드(IOM) 문제를 최상위 고등학생 수준으로 풀어내며 금메달 성적을 얻었다고 발표했다. 처음에는 이 성과가 전년도보다 큰 진전처럼 보이지 않았다. 2024년 올림피아드에서 DeepMind 시스템은 은메달 수준의 상위권을 기록했고, 올해는 인간 금메달리스트의 하위권 수준에 해당하는 점수를 받았다. 그러나 탄 룽(Tang Luong) DeepMind 연구원은 이 점수는 "큰 패러다임 전환"을 숨기고 있다고 설명했다. 이전에는 수학 문제를 해결하기 위해 별도의 인공지능(AI) 도구인 알파지오메트리(AlphaGeometry)와 알파프로프(AlphaProof)를 사용했다. 이 과정에서는 인간 전문가들이 문제를 프로그래밍 언어처럼 변환하고, AI의 해결책을 다시 영어로 번역해야 했다. 그러나 올해는 모든 과정이 자연어로 이루어졌으며, 엔드투엔드(end-to-end) 방식을 채택했다. 연구팀은 자사의 지미(Gemini) 기반 대규모 언어 모델인 딥스티크(Depthink)를 사용했는데, 이 모델은 복잡한 수학적 논리를 처리하는 데 특화되어 있으며, 병렬적으로 여러 사고 흐름을 처리할 수 있도록 개선되었다. "오랜 시간 동안, LLM이 이 정도까지 할 수 있을지 생각하지 못했다"고 룽은 말했다. 딥스티크는 올해 올림피아드의 6개 문제 중 35점을 받았다. 올림피아드 주최측과의 협약에 따라, 컴퓨터의 답변은 인간 참가자와 동일한 심사위원이 평가했다. 별도로, 샌프란시스코에 기반을 둔 OpenAI는 자사의 LLM이 같은 수학 올림피아드 문제를 금메달 수준으로 해결했지만, 그 답변은 독립적으로 평가되었다. 오랜 기간 동안 많은 AI 연구자들은 두 가지 주요 접근 방식 중 하나를 선택해왔다. 2012년 이전에는 논리적 사고 규칙을 수동으로 프로그래밍하는 방식이 주를 이뤘다. 이후 신경망 기반의 자동 학습 방식이 다양한 혁신을 이루며, OpenAI의 챗GPT와 같은 도구는 대중적인 사용을 시작했다. 뉴욕대학교(NYU)의 신경과학자 가리 마커스(Gary Marcus)는 DeepMind과 OpenAI의 성과를 "놀랄 정도로 인상 깊다"고 평가했다. 그는 수동으로 논리 규칙을 프로그래밍하는 방식, 즉 신경심볼릭 AI(neurosymbolic AI)를 지지하며, LLM의 과장된 홍보를 비판해왔다. 그러나 뉴욕대학교의 컴퓨터 과학자 에르네스티 데이비스(Ernest Davis)와 함께 자신의 블로그에 쓴 글에서 "세계 최상위 67명의 고등학생과 경쟁할 수 있는 수학 문제 해결 능력은 매우 뛰어난 수준"이라고 덧붙였다. 딥스티크와 OpenAI의 성과가 지속될지, 아니면 신경심볼릭 AI가 다시 최상위로 올라올지는 아직 미지수다. "현재 두 방식 모두 발전하고 있으며, 서로 결합될 수도 있다"고 룽은 밝혔다.