갈릴레오 AI, 다섯 업계에서 AI 에이전트 언어 모델 성능 평가
엔터프라이즈 급 언어 모델 벤치마크를 위한 AI 에이전트 프레임워크 갤리레오 AI는 다양한 언어 모델의 성능을 같은 AI 에이전트 프레임워크 내에서 평가하기 위한 AI 에이전트 프레임워크를 개발했습니다. 이 프레임워크는 뱅킹, 헬스케어, 보험, 투자, 그리고 통신 등 5개 산업 분야에서 모델들의 성능을 평가합니다. 또한, 모델들은 도구 선택 정확성, 응답 시간, 비용, 대화 횟수 등을 포함한 5가지 기준으로 검증됩니다. 도구 선택 정확성이 상위 기준 중 하나로 중요하게 여겨지는 점은, 엔비디아가 언어 모델들이 도구 선택에 대한 미세 조정(fine-tuning)이 필요하다는 사실에 큰 관심을 두고 있다는 것을 나타냅니다. 그러나 대부분의 실시간 구현에서는 여러 모델을 하나의 AI 에이전트로 구성하는 모델 오케스트레이션(model orchestration)이 활용됩니다. 그럼에도 불구하고, 각 모델을 개별적으로 테스트하는 것은 여전히 가치가 있습니다. 이를 통해 사용 사례, 지연 시간, 비용, 대화 횟수 등의 요소를 종합적으로 고려하여 가장 적합한 모델을 선택할 수 있습니다. 최근에는 특정 모델이 특정 AI 에이전트 프레임워크에 더 잘 맞는다는 연구도 이루어지고 있습니다. 이는 해당 모델이 AI 에이전트 프레임워크에 더욱 최적화되어 있다는 것을 뜻하며, 이러한 측면도 고려해야 합니다. 또한, 상용 언어 모델이 AI 에이전트 프레임워크 및 SDK 분야로 진출하고 있는 것도 주목할 만한 경향입니다. 기업이 모델과 함께 제공되는 SDK나 기본 프레임워크를 사용하면, 해당 운영 환경이 모델에 최적화될 가능성이 큽니다. 미래는 소형화된 언어 모델과 다중 모델 오케스트레이션 환경으로 향하고 있습니다. 이러한 모델들은 지속적인 미세 조정을 통해 더욱 효율적이고 강력해질 것입니다. 배경 정보 갤리레오 AI가 주관하는 AI 에이전트 리더보드 V2 벤치마크는 동일한 AI 에이전트 프레임워크 내에서 다양한 언어 모델의 성능을 산업별로 평가하는 것을 목표로 합니다. 모든 모델은 일관된 시뮬레이션 파이프라인에서 동일한 표준화된 프레임워크와 설정으로 평가됩니다. 이 시뮬레이션 파이프라인은 테스트 대상인 언어 모델(LLM), 다이나믹 멀티턴 대화를 처리하는 사용자 시뮬레이터, 그리고 예정된 JSON 스키마에 따라 도구 호출을 처리하는 도구 시모레이터로 구성됩니다. 평가는 모든 모델, 도메인, 시나리오에 대해 동일한 메트릭(Action Completion, AC와 Tool Selection Quality, TSQ)을 적용하며, 병렬 실험을 통해 공정하고 재현 가능한 벤치마킹을 보장합니다. 모델별로 특별한 처리 방법이 명시되지 않았으며, 각 테스트된 LLM에 대해 균일한 통합이 이루어졌음을 확인합니다. 테스트 산업 분야는 뱅킹, 헬스케어, 투자, 통신, 그리고 보험입니다. 주요 평가 기준은 AC와 TSQ이며, 이 평가를 위한 기본적인 시뮬레이션 파이프라인이 갤리레오 AI에서 구축되었습니다. 프레임워크 구성 요소 사용자 시뮬레이터 동적 사용자 인격을 역할 연기하고, 연관된 목표를 가진 멀티턴 대화를 처리하는 생성형 AI 구성 요소입니다. 도구 시뮬레이터 사전 정의된 JSON 스키마에 따라 AI 에이전트의 도구 호출에 응답하여 실제 도구 상호작용을 시뮬레이션합니다. 평가 구성 요소 안스로픽의 클로드(Claude)를 사용하여 도구/인격 생성, 스키마 유효성 검사, 그리고 도구 선택 품질(TSQ) 계산을 위한 추론 프롬프트를 생성합니다. 클로드는 데이터셋 생성과 메트릭 평가에도 활용되지만, 전체 아키텍처는 LangChain, LlamaIndex, CrewAI, LangGraph 등의 제3자 에이전트 프레임워크를 참조하지 않고 커스텀 구현되었습니다. 시뮬레이션 구조 멀티턴 대화 설정은 서로 연결된 사용자 목표를 통해 순차적인 의사 결정과 맥락 유지 지원을 제공합니다. 이는 AI 에이전트가 이전 대화와 도구 출력을 바탕으로 적응할 수 있도록 하여, 복잡한 시나리오에서의 성능을 암묵적으로 돕습니다. 그러나 명시적인 오류 수정, 재시도, 또는 외부 개입 없이 이루어집니다. 모델 특정 수정사항(추론 레이어 추가, 오류 처리 메커니즘, 성능 향상 등)에 대한 언급은 없습니다. 프레임워크는 모델들의 본질적인 도구 호출 및 추론 능력을 도구 시뮬레이터의 제어된 응답과 외부 평가자(안스로픽의 클로드)를 통한 사후 시뮬레이션 메트릭(TSQ)만으로 의존합니다. 모든 지원은 일관성, 확장성, 및 재현성을 보장하기 위해 모든 모델에 균일하게 적용됩니다. 전문가 평가 갤리레오 AI의 AI 에이전트 리더보드 V2 벤치마크는 언어 모델들의 본질적인 능력을 공정하게 평가하는 데 중요한 역할을 하고 있습니다. 이 프레임워크는 모델들의 성능을 직접 비교할 수 있게 하며, 기업들이 특정 산업 분야에서 최적의 모델을 선택하는 데 큰 도움이 될 것입니다. 특히, 오픈소스 모델들이 상위 3위에 포함된这一点是值得注意的,表明开源模型在各种应用中仍然具有竞争力. 未来的小型化和多模型协作环境将使这些模型更加灵活和高效. 갤리레오 AI는 엔터프라이즈 AI 솔루션 개발에 있어 혁신적인 접근 방식을 제시하며, 이 벤치마크는 AI 기술의 발전과 다양성 증대를 위한 중요한 단계로 평가되고 있습니다. ギャリレオ AI: 엔터프라이즈 급 AI 솔루션 개발 회사로, AI 에이전트 프레임워크 및 벤치마크 개발에 주력하고 있습니다. NVIDIA: AI 및 GPU 기술 분야의 선두 기업으로, 언어 모델의 도구 선택 미세 조정에 큰 관심을 가지고 있습니다. Anthropic: 고급 AI 연구 및 개발 회사로, 클로드(Claude)라는 AI 시스템을 통해 도구 및 인격 생성, 스키마 유효성 검사,以及工具选择质量计算等功能. 이 벤치마크는 언어 모델들이 다양한 산업 분야에서 어떻게 작동하는지를 이해하는 데 큰 도움이 될 것이며, AI 기술의 미래 발전 방향을 가늠하는 데도 중요한 역할을 할 것입니다.