HyperAI초신경
Back to Headlines

구글, 젬니 2.5 프로 투명성 제한으로 기업 개발자들 불만

9일 전

구글의 제미니 2.5 프로 투명성 감소, 기업 개발자들 불만 증가 2025년 6월 20일 오전 5시 구글이 최신 모델인 제미니 2.5 프로의 원시 추론 토큰을 숨기기로 한 결정은 이 투명성을 활용해 애플리케이션을 구축하고 디버그하던 개발자들 사이에서 격렬한 반발을 불러일으켰습니다. 이 변화는 오픈AI의 유사한 움직임을 연상시키며, 모델의 단계별 추론을 간단한 요약으로 대체합니다. 이는 사용자 경험을 다듬는 것과 기업이 필요로 하는 관찰 가능한, 신뢰할 수 있는 도구를 제공하는 것 사이의 중요한 갈등을 드러냅니다. 기업들이 더 복잡하고 중요한 시스템에 큰 언어 모델(LLM)을 통합함에 따라, 모델의 내부 작동 방식이 얼마나 노출되어야 하는지에 대한 논의가 업계의 주요 이슈로 떠오르고 있습니다. ‘AI 투명성의 근본적인 하락’ 고급 AI 모델은 복잡한 문제를 해결하기 위해 내부 대화, 즉 "추론 체인"을 생성합니다. 이는 모델이 최종 답변에 도달하기 전에 생성하는 중간 단계의 시리즈입니다. 예를 들어 데이터 처리 방법, 사용 정보, 자체 코드 평가 등을 공유할 수 있습니다. 개발자들에게 이 추론 트레일은 중요한 진단 및 디버깅 도구로 작용했습니다. 모델이 잘못된 또는 예상치 못한 출력을 제공할 때, 추론 과정은 논리가 틀린 지점을 밝혀줍니다. 구글의 제미니 2.5 프로는 이 점이 오픈AI의 o1과 o3보다 우수한 주요 장점 중 하나였습니다. 구글의 AI 개발자 포럼에서 사용자들은 이 기능 제거를 "큰 퇴보"라고 비판했습니다. 이를 없애면 개발자들은 어둠속에서 작업해야 합니다. 한 사용자는 "원시 추론 체인을 볼 수 없으니 정확히 어떤 문제가 생겼는지 진단할 수 없다"고 말했으며, 다른 사용자는 "모델이 실패한 이유를 추측해야 하므로 incredibly frustrating, repetitive loops를 겪게 된다"고 불평했습니다. 디버깅 외에도 이 투명성은 고도화된 AI 시스템을 구축하는 데 중요합니다. 개발자들은 추론 체인을 활용해 프롬프트와 시스템 지침을 세밀하게 조정하며, 이는 모델의 행동을 조종하는 주요 방법입니다. 특히 AI가 여러 작업을 수행해야 하는 에이전틱 워크플로우를 구축하는 데 있어 이 기능은 매우 중요합니다. 한 개발자는 "추론 체인들이 에이전틱 워크플로우를 올바르게 조정하는 데 엄청난 도움이 되었다"고 말했습니다. 기업에게는 이 투명성이 감소하는 경향이 문제를 일으킵니다. 내부 작동 방식을 숨기는 블랙박스 AI 모델은 중요한 상황에서 출력을 신뢰하는 것을 어렵게 만들어 더욱 큰 위험을 초래합니다. 오픈AI의 o-시리즈 추론 모델에 이어 구글 역시 이 경향을 따르면서, 깊은 검색-R1과 QwQ-32B 같은 오픈 소스 대안이 명확한 기회를 얻고 있습니다. 전체 추론 체인에 접근할 수 있는 모델들은 기업이 모델의 행동을 더 많이 제어하고 투명하게 관리할 수 있도록 합니다. 이제 CTO나 AI 리더의 결정은 단순히 최고 성능을 낸 모델을 선택하는 것이 아니라, 최고 성능을 내지만 투명성이 부족한 모델과 더 신뢰할 수 있는 모델 중 어느 것을 선택할지의 전략적 결정으로 바뀌었습니다. 구글의 답변 구글 팀은 개발자들의 불만에 대해 반응하며 결정 배경을 설명했습니다. 구글 딥마인드의 선임 제품 매니저 로건 킬패트릭은 "변경은 순전히 미적 측면이며 모델의 내부 성능에는 영향을 미치지 않는다"고 설명했습니다. 그는 소비자용 제미니 앱에서 긴 추론 과정을 숨김으로써 사용자 경험을 깨끗하게 만든다고 덧붙였습니다. "제미니 앱에서 추론 과정을 읽는 사람의 비율은 매우 작다"고 말했습니다. 개발자를 위한 새로운 요약은 원시 추론 트레이스를 API를 통해 프로그래밍적으로 접근하는 첫 걸음이라는 점을 강조했습니다. 구글 팀은 개발자들이 원하는 원시 추론의 가치를 인정했습니다. "여러분들이 원하는 원시 추론, 그 가치가 분명하다, 이를 요구하는 사례가 있다"고 킬패트릭은 적었습니다. 그는 원시 추론 기능을 개발자 중심 AI 스튜디오에 다시 도입하는 것을 "탐색할 수 있는 가능성이 있다"고 덧붙였습니다. AI 모델의 복잡성과 관찰성, 추적 능력의 필요성이 증가함에 따라 원시 추론에 대한 접근 필요성도 커질 것입니다. 킬패트릭은 "AI 시스템의 복잡성이 증가하고 관찰성과 추적이 필요한 만큼 원시 추론이 중요한 요구사항이 될 수 있다"고 결론을 지었습니다. 추론 토큰이 과대평가되었나? 그러나 전문가들은 사용자 경험 이상의 깊은 동학이 작용하고 있다고 지적합니다. 아리조나 주립대학교의 AI 교수인 수바라오 칸바邯프아티는 "추론 모델이 최종 답변 전에 생성하는 '중간 토큰'이 모델이 문제를 해결하는 방식을 이해하는 데 신뢰할 수 있는 안내자가 될 수 있는지 의심스럽다"고 말했습니다. 그가 최근 공동 저술한 논문은 이러한 "중간 토큰"을 "추론 트레이스"나 "생각"으로 인류화하는 것이 위험한 함의를 가질 수 있다고 주장합니다. 모델들은 종종 무한하고 이해할 수 없는 방향으로 추론 과정을 진행합니다. 여러 실험은 잘못된 추론 트레이스와 올바른 결과로 훈련된 모델들이 잘 준비된 추론 트레이스로 훈련된 모델들과 마찬가지로 문제를 해결할 수 있음을 보여주었습니다. 또한 최신 추론 모델들은 강화 학습 알고리즘을 통해 최종 결과만 검증하고, "추론 트레이스"를 평가하지 않습니다. "중간 토큰 시퀀스가 종종 인간의 필기처럼 잘 포맷되고 맞춤법이 맞는 것처럼 보이지만, 이는 모델이 이를 인간과 유사한 목적으로 사용한다는 것과, 이를 통해 LLM이 무엇을 '생각'하고 있는지를 해석할 수 있다는 것, 또는 최종 답변을 합리적으로 정당화할 수 있다는 것과는 크게 관련이 없다"고 연구진들은 작성했습니다. 칸바邯프아티는 대부분의 사용자들이 모델이 출력하는 원시 중간 토큰의 양을 이해할 수 없다고 지적했습니다. "깊은 검색 R1은 간단한 계획 문제를 해결하는 데 30페이지의 유사한 영어 문장을 생성한다!"고 그는 VentureBeat에 밝혔습니다. "o1/o3이 처음부터 원시 토큰을 숨긴 이유는 이들이 얼마나 일관되지 않은지 사용자들이 알아채게 할 우려 때문이었을 수도 있다." 그럼에도 불구하고 칸바邯프아티는 요약이나 사후 설명이 종종 최종 사용자들에게 더 이해하기 쉬울 것으로 제안했습니다. "예를 들어, 교사로서 새로운 문제를 해결할 때 많은 잘못된 시작과 후퇴를 하겠지만, 학생이 이해하기 쉽도록 설명한다"고 그는 덧붙였습니다. 원시 추론 체인을 숨기는 결정은 경쟁적 장벽을 형성하는 역할도 합니다. 원시 추론 트레이스는 경쟁사가 이를 "증류" 과정을 통해 더 작은, 저렴한 모델을 훈련시키는 데 매우 유용한 훈련 데이터입니다. 원시 생각을 숨김으로써 경쟁사가 모델의 핵심 기술을 복제하는 것을 어렵게 만들 수 있으며, 이는 자원 집약적인 산업에서 중요한 이점입니다. 제미니 2.5 프로의 추론 체인 숨김은 AI의 미래에 대한 더 큰 논의의 서막에 불과합니다. 추론 모델의 내부 작동 방식, 이를 활용하는 방법, 그리고 모델 제공업체가 개발자들이 접근할 수 있도록 얼마나 노력할지에 대한 많은 연구가 남아 있습니다. 이 결정은 업계 전문가들로부터 다양한 평가를 받았습니다. 일부는 이를 단순히 사용자 경험 개선의 일환으로 보았지만, 다른 전문가들은 이로 인해 모델의 내부 작동 방식을 이해하고 신뢰하는 데 필요한 투명성이 크게 손실되었다고 지적했습니다. 구글은 AI 모델의 투명성과 성능 사이의 균형을 찾는 방법을 계속 탐색할 것으로 예상됩니다.

Related Links