Kaggle AI国际象棋争霸赛开赛:语言模型棋艺尚浅,AlphaZero仍为巅峰
제1회 'AI 국제상추 체스 챔피언십'이 8월 5일 개막, 구글과 캐글이 공동 주최한 온라인 대회는 3일간의 라이브 방송으로 진행된다. 첫날 경기 결과에 따르면, 중국 모델인 DeepSeek-R1과 Kimi K2 Instruct는 각각 o4 mini와 o3에 0:4로 완패했다. 하단 블록에서는 구글의 Gemini 2.5 Pro가 Claude Opus 4를 제압했지만, Gemini 2.5 Flash는 Grok 4에게 패배했다. 모든 경기는 한쪽이 4승을 거두며 일방적인 흐름을 보였으며, 승부는 최소 30분에서 최대 2시간까지 소요됐다. Kimi K2는 여러 차례 규칙 위반(예: d1의 퀸을 d4로 이동)을 범해 빠르게 패배했고, 반면 o4-mini와 DeepSeek-R1의 경기는 약 2시간에 걸쳐 치열한 접전을 펼쳤다. 내일은 o4 mini와 o3의 동문 대결, Gemini 2.5 Pro와 Grok 4의 맞대결이 예정돼 있다. 이 대회는 성과를 측정하는 '시범 경기'로, 캐글의 새로운 AI 평가 플랫폼인 '게임 아레나(Game Arena)'에서 진행된다. 이 플랫폼은 구글 딥마인드와 협력해 개발되었으며, 대형 언어모델(LLM)이 국제상추 같은 복잡한 전략 게임에서 직접 경쟁하도록 설계됐다. 기존의 정적 평가 방식과 달리, 실시간 대결을 통해 모델의 전략적 사고, 계획 능력, 실시간 판단력을 정량화한다. 모든 모델은 텍스트 기반으로 입력·출력하며, 외부 체스 엔진 사용은 금지된다. 체스판 상태는 포스프스-에드워즈 기록법(FEN), 기록은 PGN 형식으로 제공되며, 모델은 표준 대수기록(SAN)으로 다음 수를 제출해야 한다. 불법 수를 입력하면 최대 4회까지 재시도 가능, 실패 시 패배 처리된다. 각 수에 60분 제한이 있으며, 승패는 실시간으로 기록된다. 모델의 실력은 유사 에이로(Elo) 체계의 동적 평가 시스템으로 산출되며, 승패 결과와 예측 확률의 차이, 모델의 불확실성(σ)에 따라 점수가 조정된다. 전체 모델 간에는 '전체 대전(all-play-all)' 방식으로 수백 번 이상의 대결을 통해 통계적으로 안정된 순위를 도출할 계획이다. 이 대회는 단순한 승패를 넘어서, 모델이 각 수를 결정하기 전에 내뱉는 '사고 과정'까지 기록해 AI의 사고 방식을 분석할 수 있는 기회를 제공한다. 현재 대부분의 LLM은 전용 체스 엔진이나 강화학습 기반 AI인 알파제로에 비해 실력이 턱없이 낮으며, 규칙 위반, 무의미한 포기, 반복된 실수 등이 빈번하다. 그러나 전문 엔진이 아닌 일반형 AI가 체스에서 실력을 키우는 과정은, 복잡한 현실 문제 해결 능력 향상의 단초가 될 수 있다. 구글은 "이번 대회는 모델의 전략적 사고를 실시간으로 관측하고, 향후 AI의 지능 수준을 더 정교하게 평가하는 기반을 마련하는 것"이라고 설명했다.