HyperAI초신경

구글이 AI 추론 인프라의 초대규모 확장과 혁신을 공개하며, 초지능 시대의 기술적 우위를 과시했다. 구글은 지난 AI Infra Summit에서 추론 토큰 처리량이 2024년 4월 9.7조에서 2025년 8월 1,460조 토큰으로 150배 이상 급증했다고 밝혔다. 이는 Gemini, Gemma 등 자체 모델의 대규모 활용과 함께, TPUs 기반의 초고성능 인프라 확장의 결과다. 특히 새롭게 도입된 Ironwood TPU v7p는 Trillium 대비 5배 성능, 6배 메모리 용량을 확보했으며, 고유의 광학 회로 스위치(OCS)를 통해 9,216개 TPU를 연결해 1.77PB의 HBM 메모리를 활용하는 레이크스케일 시스템을 구현했다. 이는 NVIDIA의 Blackwell 기반 시스템과 비교해도 압도적인 성능을 자랑한다. 구글은 또한 Liquid Cooling 기술을 2014년부터 개발해 2024년 기준 1GW의 냉각 용량을 확보했으며, 이를 오픈 컴퓨트 프로젝트에 공개할 계획이다. 인프라 운영 측면에서는 GKE 기반의 AI 추론 게이트웨이, vLLM 기반 추론 스택, Anywhere Cache를 통한 캐싱 최적화, Managed Lustre 파일 시스템 등이 통합돼 지연시간 96% 감소, 처리량 40% 증가, 토큰 비용 30% 절감을 가능하게 했다. 또 '예측적 디코딩' 기술을 도입해 Gemini 모델의 에너지 소모를 약 33배 줄이는 성과를 거두며, 효율성과 경제성을 동시에 확보했다. 구글은 자체 TPU뿐 아니라 NVIDIA GPU 기반의 AI 하이퍼컴퓨터도 제공하며, Dynamo 추론 스택과의 통합도 추진 중이다. 이 모든 기술은 구글 클라우드 고객에게 빠르고 저렴한 AI 서비스를 제공하기 위한 전략적 기반을 마련한다.

구글, AI 추론 규모와 효율성 혁신 공개…Ironwood TPU와 고도화된 인프라로 경쟁력 확보

Related Links