구글 딥마인드 AI, 최고 수학 경시대회 금메달 획득
Google DeepMind가 7월 21일 월요일에 발표한 바에 따르면, 최신 버전의 Gemini 인공지능(AI) 모델이 국제 수학 올림피아드(IMO)에서 금메달 수준의 성과를 거두었다. 이 AI는 6개의 매우 어려운 문제 중 5개를 풀어, 총 42점 중 35점을 획득하며 금메달 기준을 훌쩍 넘겼다. 이는 AI가 이제 자연어 이해를 통해 복잡한 수학 문제를 해결할 수 있다는 것을 입증하는 중요한 순간으로, 전문 프로그래밍 언어 없이도 가능하다는 점에서 더욱 주목받고 있다. Google DeepMind의 CEO인 Demis Hassabis는 사회적 미디어 플랫폼 X에서 "Gemini가 국제 수학 올림피아드에서 금메달 수준의 성과를 거두었습니다. 5개의 문제를 푼 것은 놀라운 진보입니다"라고 발표했다. 이 성과는 2024년에 AlphaProof와 AlphaGeometry 2 시스템이 은메달 수준을 달성하면서 4개의 문제를 푼 것에 비해 크게 발전한 것이다. 그 당시 시스템은 인간 전문가들이 자연어 문제를 도메인별 프로그래밍 언어로 번역하고, 그 결과를 다시 자연어로 해석해야만 했다. 올해의 돌파구는 Gemini Deep Think라는 고급 추론 시스템을 사용한 것으로, '병렬 사고' 방법을 활용해 여러 가능한 해결책을 동시에 탐색한 후 최종 답을 도출했다. Hassabis는 "우리 모델은 공식 문제 설명에서 직접 철저한 수학 증명을 생성했습니다"라고 설명하며, 모든 작업이 4.5시간이라는 경쟁 시간 내에 완료되었다고 강조했다. IMO 회장인 Gregor Dolinar 교수는 "Google DeepMind의 성과는 많은 면에서 놀랍습니다. IMO 심사원들은 그들의 해결책이 명확하고 정확하며 대부분이 쉽게 이해될 수 있다고 평가했습니다"라고 말했다. 반면, OpenAI는 경쟁 규칙을 준수하지 않았다는 비난을 받았다. OpenAI는 7월 19일 토요일에 자신의 AI 모델이 국제 수학 올림피아드에서 금메달 수준의 성과를 거두었다고 발표했지만, 이는 공식 IMO 평가 과정을 거치지 않고, 회사가 자체적으로 초청한 전직 IMO 금메달리스트들에 의해 평가된 결과였다. 이에 대해 한 소셜 미디어 사용자는 "OpenAI는 IMO 요청을 무시했습니다. 부끄러운 일입니다. 인류와 함께하지 않는 행동"이라고 지적했다. Google DeepMind는 공식 결과가 독립 전문가들에 의해 검증되고 학생들이 충분히 인정받은 후에 발표했다는 점에서 찬사를 받았다. Google DeepMind의 성공은 새로운 훈련 기법을 통해 이루어졌다. 연구팀은 고급 강화 학습 방법을 사용해 다단계 추론, 문제 해결, 정리 증명 데이터를 활용하도록 모델을 훈련시키고, IMO 스타일의 문제 접근법에 대한 일반적인 힌트와 팁을 제공했다. 이 모델은 특히 가장 어려운 문제 중 하나에서 대학원 수준의 수학 개념을 적용한 많은 인간 참가자들보다 더 우아한 해결책을 제시해 눈길을 끌었다. AI가 고차원적인 추론 능력을 보이는 이 사건은 AI 산업에서 큰 의미를 갖는다. 2025년 현재, AI 업계는 고급 추론 능력을 보유한 모델 개발에 열중이다. Google은 이 Deep Think 모델을 수학자들에게 제공하여 테스트를 거친 후, Google AI Ultra 구독자들에게 출시할 계획이다. 이 모델은 월 250달러를 지불하는 구독자들에게 제공될 예정이다. 한편, OpenAI의 실험용 추론 모델인 o1도 같은 성과를 거두었으나, 공식 IMO 평가 과정을 거치지 않은 것이 문제가 되었다. OpenAI의 연구원 Alexander Wei는 "이 모델은 새로운 연구 기법을 사용하며, 향후 모델에서도 찾아볼 수 있습니다"라고 말했다. 그러나 Google DeepMind의 Thang Luong 연구원은 OpenAI의 결과가 IMO의 내부 평가 가이드에 따라 판단되었더라면 금메달 기준에 미치지 못했을 것이라고 반박했다. 이런 성과들은 단순히 수학 문제를 해결하는 것 이상의 의미를 갖는다. AI가 자연어로 표현된 문제를 이해하고, 추상적 사고를 통해 새로운 상황에 대응할 수 있다는 것은 '메모리로만 작동하는 것이 아니라 진정한 인지 기능이 나타나고 있음을 보여줍니다'라고 AI 관찰자 Elyss Wren은 평가했다. Ethan Mollick 교수는 "LLM(대형 언어 모델)이 다양한 문제 해결에 일반화되는 증거가 늘고 있다"고 덧붙였다. 국제 수학 올림피아드는 1959년부터 매년 개최되어, 전 세계에서 가장 권위 있는 수학 경연 대회로 알려져 있다. 각 국은 6명의 엘리트 청소년 수학자들을 보내, 대수학, 조합론, 기하학, 수론 등 6개의 매우 어려운 문제를 해결하게 한다. 금메달은 약 8%의 참가자만이 받을 수 있다. 이번 Google DeepMind의 성과는 AI의 추론 능력이 급속도로 발전하고 있으며, 미래에는 AI가 인간 수준의 추론을 보일 수 있을 것임을 시사한다. 그러나 실제 세계의 혼란스럽고 다면적인 문제들에 이 능력이 어떻게 적용될지는 아직 불분명하다.