실리콘밸리의 AI 에이전트 혁명, '강화학습 환경'이 핵심으로 떠오르다
실리콘밸리, AI 에이전트 훈련을 위한 '환경'에 집중 투자 AI 에이전트가 소프트웨어를 자율적으로 사용해 작업을 수행하는 미래를 향한 기대가 커지면서, 실리콘밸리의 주요 기술 기업과 스타트업들이 '강화학습(RL) 환경' 개발에 집중하고 있다. RL 환경은 AI 에이전트가 가상의 웹 브라우저나 앱에서 복잡한 작업을 수행하도록 훈련시키는 시뮬레이션 공간으로, 예를 들어 아마존에서 양말을 구매하는 과정을 반복적으로 학습하게 한다. 성공 시 보상 신호를 주고, 실패 시 피드백을 제공함으로써 에이전트의 능력을 키운다. 이러한 환경은 기존의 정적 데이터셋과 달리 동적인 상호작용을 요구하므로 설계가 매우 복잡하며, 예상치 못한 행동에도 대응할 수 있어야 한다. OpenAI와 DeepMind의 초기 연구에서도 비슷한 개념이 사용되었지만, 현재는 대규모 트랜스포머 기반의 일반화된 에이전트를 훈련시키는 데 초점이 맞춰져 있다. 이에 따라 메커니즘웍스, 프라임 인텔렉트 등 신생 스타트업이 RL 환경 전문 기업으로 부상하고 있으며, 메르코르, 서지 등 기존 데이터 라벨링 기업도 이 분야에 진출하고 있다. 특히 서지는 지난해 AI 랩들과의 협업으로 12억 달러 매출을 기록했고, RL 환경 전용 조직을 신설했다. 메르코르는 법, 의료, 코딩 등 특정 분야에 특화된 환경 개발을 추진 중이다. 한편, 앤트로픽은 내년에 10억 달러 이상을 RL 환경에 투자할 계획이며, 프라임 인텔렉트는 ‘RL 환경의 허깅페이스’를 목표로 오픈소스 기반 플랫폼을 출시했다. 그러나 일부 전문가들은 환경의 확장성과 신뢰성에 의문을 제기하며, 보상 조작(Reward Hacking) 등의 문제를 우려하고 있다. AI 전문가 안드레이 카르파티는 RL 자체보다는 환경과 에이전트 상호작용에 더 긍정적 시각을 보이지만, RL 기술의 한계도 경고했다. 결국 RL 환경은 AI 발전의 핵심 도구가 될 수 있지만, 기술적 복잡성과 확장성 문제를 극복해야 진정한 '스케일'을 이룰 수 있을지 주목된다.