NVIDIA의 'AI 공장' 신화, 70% 마진으로 비판 받다
NVIDIA의 'AI 공장' 담론이 현실 검증을 받다: 추론 시장에서 70%의 마진이 도전받다 6월 25일, 2025년 11시 56분 VB Transform 2025 콘퍼런스에서 대체 칩 제조업체들이 NVIDIA의 주도권 담론에 직접 도전하며, AI 추론이 대량 생산되는 '공장'으로 묘사되면서도 70%의 고마진을 유지하는 모순을 드러냈다. Groq의 CEO 조나단 로스는 NVIDIA의 메시지를 논의하면서 뒤,Th混没有提供完整的韩语翻译。让我重新整理并用韩语呈现这篇文章的内容: NVIDIA의 'AI 공장' 담론이 현실 검증을 받다: 추론 시장에서 70%의 마진이 도전받다 6월 25일, 2025년 11시 56분 VB Transform 2025 콘퍼런스에서 대체 칩 제조업체들이 NVIDIA의 주도권 담론에 직접 도전하며, AI 추론이 대량 생산되는 '공장'으로 묘사되면서도 70%의 고마진을 유지하는 모순을 드러냈다. Groq의 CEO 조나단 로스는 NVIDIA의 경쟁력을 설명하는 메시지에 대해 명확하게 말했다. "AI 공장은 AI를 덜 무서운 것으로 만들기 위한 마케팅 방식이다"라고 로스는 패널에서 언급했다. 경쟁사인 Cerebras의 CTO 시언 리도 동일한 견해를 표현했다: "NVIDIA는 모든 서비스 제공자가 마지막 페니까지 싸우는 동안 그들 스스로가 편안하게 70%의 고마진을 누리는 것을 문제 삼지 않는다." 수백억 달러의 인프라스트럭처 투자와 기업 AI의 미래 아키텍쳐가 걸려 있는 상황에서, 이 패널은 CISO들과 AI 리더들이 OpenAI 등과 주간 협상으로 더 많은 용량을 확보하려는 이유를 불편하게 밝혀냈다. SemiAnalysis의 창립자 딜런 패텔은 "실제로 큰 AI 모델 사용자들은 OpenAI나 다른 제공자에게 가서 필요한 토큰을 충분히 제공받지 못하는 것을 알고 있다"라고 설명했다. 최대 AI 사용자들과 모델 제공자들, 그리고 하드웨어 제공자들 간의 주간 회의들은 이러한 문제를 더욱 확대시키고 있다. 패널 참가자들은 또한 토큰 부족이 '공장' 비유의 근본적인 결함을 드러냈다고 지적했다. 전통적인 제조업은 수요 신호에 따라 생산 능력을 늘리는 반면, 기업들이 10배 더 많은 추론 용량을 필요로 할 때 공급망이 유연하게 대응하지 못한다. GPU는 2년의 사전 주문이 필요하며, 데이터 센터는 허가와 전력 계약이 필요하다. 이런 인프라는 지수적이게 확장될 수 없도록 설계되어 있어, 제공자들이 API 제한을 통해 접근성을 배급해야 하는 상황을 초래한다. '공장' 사고 방식이 AI 경제학을 깨뜨리는 이유 Jensen Huang의 'AI 공장' 개념은 표준화, 대량 생산, 효율성 향상을 의미하며 이는 비용을 낮추는 효과를 가져온다고 한다. 그러나 패널은 이 비유가 세 가지 근본적인 방식으로 붕괴된다는 점을 밝혔다. 첫째, 추론은 일정하지 않다. "예를 들어 DeepSeek의 추론은 제공자의 속도와 비용에 따라 다양하다"라고 패텔은 지적했다. DeepSeek는 가장 낮은 비용으로 자신의 모델을 제공하지만, 20토큰/초의 속도는 실제 사용에 적합하지 않다. "누구도 20토큰/초보다 느린 모델을 원하지 않는다. 나는 그보다 빠르게 말한다"라고 그는 덧붙였다. 둘째, 품질은 크게 다르다. 로스는 표준 석유 시장을 예로 들었다: "표준 석유가 시작될 때, 석유의 품질은 다양했다. 한 업체로부터 구매한 석유는 당신의 집을 불태울 수도 있었다." 오늘날의 AI 추론 시장에서도 비슷한 품질 차이가 존재하며, 제공자들은 비용을 줄이기 위해 다양한 기술을 사용하는데, 이는 출력 품질을 저하시키는 결과를 초래한다. 셋째, 경제학적으로 역설적이다. "AI의 특이점 중 하나는 비용을 더 많이 들이면 더 좋은 결과를 얻을 수 있다는 점이다"라고 로스는 설명했다. "소프트웨어 애플리케이션을 호스팅하는 비용을 두 배로 늘려도 애플리케이션이 좋아지는 것은 없다." Zuckerberg가 Groq를 찬양하면서 "완벽한 품질로 출시한 유일한 회사"라고 언급한 것은 이 업계의 품질 위기를 간접적으로 드러냈다. 이는 단순한 인정이 아니라 다른 제공자들이 품질을 희생하면서 비용을 절감하고 있음을 비난하는 것이었다. 로스는 기술적인 방법들을 설명하며 "많은 사람들이 비용을 줄이기 위해 품질을 저하시키는 방법들을 사용한다"라고 말했다. 양자화는 정밀도를 줄이고, 프루닝은 매개변수를 제거하여, 각 최적화가 기업들이 생산 단계에서 발견할 수 있는 모델 성능을 저하시킨다. 성능이 모든 것을 바꾼다 Cerebras와 Groq는 가격뿐만 아니라 성능에서도 경쟁하고 있다. 그들은 추론 속도를 완전히 새로운 차원으로 끌어올리고 있다. "우리가 개발한 웨이퍼 스케일 기술은 가장 빠른 GPU보다 10배, 때로는 50배 더 빠른 성능을 제공한다"라고 리는 말했다. 이는 점진적인 개선이 아니라, 완전히 새로운 사용 사례를 가능하게 한다. "우리 고객들은 40분이 걸리는 에이전틱 워크플로우를 실시간으로 실행하고자 한다"라고 리는 설명했다. "비용이 아무리 많이 들더라도, 이러한 작업은 현재의 인프라로는 불가능하다." 실제 병목 현상: 전력과 데이터 센터 모든 사람이 칩 공급에 집중할 때, 패널은 AI 배포를 제한하는 실제 제약이 무엇인지 밝혔다. "데이터 센터 용량이 큰 문제다. 미국에서는 데이터 센터 공간을 찾기가 어려워졌다"라고 패텔은 말했다. "전력도 큰 문제다." 인프라의 도전은 칩 제조를 넘어서 기본적인 자원 제약으로 확장된다. 패텔은 "타이완의 TSMC는 연간 2억 달러 이상의 칩을 생산할 수 있지만, 그들이 확장하는 속도는 상상할 수 없을 정도로 빠르다"라고 설명했다. 그러나 칩 생산만으로는 충분하지 않다. " 컴퓨팅 용량을 확보하기 위해 전 세계적으로 전력을 찾아 나서는 상황이 벌어지고 있다. 전력 인프라와 데이터 센터 공간, 전기 시스템을 구축할 수 있는 전기 기사들이 있는 곳으로 기업들이 이동하고 있다"라고 패텔은 덧붙였다. Google의 '성공 재앙'이 모든 기업의 현실이 되다 로스는 Google의 역사를 공유하며 "2015년 Google에서 '성공 재앙'이라는 용어가 인기를 얻었다. 일부 팀은 AI 애플리케이션이 처음으로 인간보다 더 우수한 성능을 보였지만, 컴퓨팅 수요가 너무 높아 글로벌 데이터 센터 규모를 2~3배로 확장해야 하는 상황이 발생했다"고 설명했다. 이 패턴은 이제 모든 기업 AI 배포에서 반복되고 있다. 애플리케이션이 성공적으로 받아들여지거나 하키 스틱 성장 곡선을 경험하면서 즉시 인프라 제한에 부딪히는 두 가지 경우가 있다. 중간 단계나 부드러운 확장 곡선은 존재하지 않고, 공장 경제학이 예측하는 선형 확장 곡선과는 다르다. 기업 AI 전략에 대한 의미 CIO, CISO, AI 리더들에게 패널의 밝혀낸 사실은 전략의 재조정을 요구한다. 용량 계획에 새로운 모델 필요. 전통적인 IT 전망은 선형 성장을 가정하지만, AI 작업은 이 가정을 깨뜨린다. 성공적인 애플리케이션이 매월 30%씩 토큰 소비를 늘릴 때 연간 용량 계획은 분기별로 무효화된다. 기업들은 정적 구매 주기를 동적 용량 관리로 전환해야 한다. 용량 급증 조항이 포함된 계약을 체결하고, 사용량을 분기별이 아닌 주별로 모니터링해야 한다. AI 확장 패턴은 바이러스 성 채택 곡선을 닮아 있다. 속도 프리미엄은 영구적이다. 추론이 일률적인 가격으로 대량 생산될 것이라는 생각은 제공자 간의 큰 성능 차이를 무시한다. 기업들은 중요한 부분에서 속도를 예산에 반영해야 한다. 기술 아키텍처가 최적화를 이긴다. Groq와 Cerebras는 GPU를 더 잘 만드는 것이 아니라, AI 컴퓨팅의 근본적인 아키텍처를 재검토하여 승리하고 있다. GPU 기반 인프라에 모든 것을 건 기업들은 느린 차선에 갇힐 위험이 있다. 전력 인프라는 전략적이다. 제약은 칩이나 소프트웨어이 아니라 킬로와트와 냉각 시스템이다. 영리한 기업들은 이미 2026년 이후의 전력 용량과 데이터 센터 공간을 확보하고 있다. 기업들이 무시할 수 없는 인프라 현실 패널은 AI 공장 비유가 단순히 잘못되었을 뿐 아니라 위험하다는 근본적인 진실을 밝혔다. 일률적인 추론 가격과 표준화된 제공을 중심으로 전략을 세우는 기업들은 실제로 존재하지 않는 시장을 계획하고 있다. 실제 시장은 세 가지 혹독한 현실에 의해 운영된다. - 용량 부족이 공급자들이 조건을 결정하고 기업들이 할당을 애걸하는 상황을 만들었다. - 95%와 100%의 정확도 차이는 AI 애플리케이션이 성공하거나 재앙적으로 실패할지 결정한다. - 기술이 아닌 인프라가 AI 변혁의 한계를 설정한다. CISO와 AI 리더들이 앞으로 나아가야 할 길은 '공장' 사고 방식을 완전히 포기하는 것이다. 지금 당장 전력 용량을 확보하고, 추론 제공자들의 숨겨진 품질 저하를 감사해야 한다. 아키텍처의 장점을 바탕으로 공급자 관계를 구축해야 하며, 안정적이고 고품질의 추론을 70%의 마진으로 구매하는 것이 가장 현명한 투자임을 인정해야 한다. VB Transform 2025에서 대체 칩 제조업체들은 단순히 NVIDIA의 담론에 도전한 것이 아니라, 기업들이 선택해야 하는 진실을 드러냈다. 품질과 성능에 대한 비용을 지불하거나, 주간 협상 회의에 참여해야 하는 것이 바로 그 선택이다. 패널의 합의는 명확하다: 성공은 특정 작업부하에 적합한 인프라를 선택하는 데 있다. 일괄적 해결책을 추구하는 것은 더 이상 유효하지 않다. NVIDIA는 AI 추론 시장의 주도권을 유지하며 높은 마진을 누리고 있지만, 이 콘퍼런스를 통해 AI 인프라의 복잡성과 제약이 명확히 드러났다. 대체 칩 제조업체들은 이러한 문제를 해결할 새로운 기술과 아키텍처를 제시하며, AI 시장의 미래를 개척하고 있다.