카타네모 연구팀, 사용자 선호에 맞는 AI 라우팅 모델 개발 성공
Katanemo 랩스의 연구진이 새로운 라우팅 모델 및 프레임워크인 Arch-Router를 도입하였습니다. 이 모델은 사용자의 쿼리를 가장 적합한 대형 언어 모델(LLM)로 지능적으로 매핑하는 것을 목표로 합니다. 기업들이 여러 LLM을 활용하여 제품을 개발할 때 핵심적인 문제 중 하나는 어떤 모델이 특정 작업에 가장 적합한지를 결정하는 것입니다. 이를 위해 Arch-Router는 사용자가 정의한 선호도에 맞춰 쿼리를 라우팅하는 새로운 "선호도 맞춤 라우팅" 프레임워크를 제안합니다. LLM 라우팅의 도전 LLM의 수가 증가함에 따라, 개발자들은 단일 모델에서 다양한 모델을 활용하는 다중 모델 시스템으로 이동하고 있습니다. 각 모델은 고유한 강점을 가지고 있어 특정 작업(예: 코드 생성, 텍스트 요약, 이미지 편집)에 최적화됩니다. LLM 라우팅은 이러한 시스템을 구축하고 배포하는 데 필수적인 기술로, 트래픽을 제어해 각 사용자 쿼리를 가장 적합한 모델로 안내합니다. 기존 라우팅 방법은 "태스크 기반 라우팅"과 "성능 기반 라우팅"으로 크게 나뉩니다. 태스크 기반 라우팅: 사전 정의된 태스크에 따라 쿼리를 라우팅합니다. 그러나 사용자의 의도가 불분명하거나 변할 때, 특히 다단계 대화에서는 효과적이지 않습니다. 성능 기반 라우팅: 비용과 성능 사이의 최적 균형을 찾습니다. 하지만 벤치마크 점수에만 집착하여 실제 사용자 선호도를 간과하고, 새로운 모델이 도입되면 비용이 많이 드는 미세 조정(fine-tuning)을 필요로 합니다. Katanemo 랩스의 연구진은 "기존 라우팅 접근 방식은 벤치마크 성능을 최적화하되 주관적인 평가 기준에 의해 구동되는 인간의 선호도를 무시하는 경향이 있다"고 지적하며, "라우팅 시스템은 인간의 선호도와 일치하며, 더 많은 투명성을 제공하고, 모델과 사용 사례가 진화할 때 쉽게 적응할 수 있어야 한다"고 강조합니다. 선호도 맞춤 라우팅 프레임워크 연구진은 사용자가 정의한 선호도에 따라 쿼리를 라우팅하는 새로운 프레임워크를 제안합니다. 이 프레임워크는 "도메인-액션 분류체계(Domain-Action Taxonomy)"를 사용하여 사용자가 자연어로 라우팅 정책을 정의할 수 있도록 설계되었습니다. 이 체계는 사람들이 업무를 설명하는 방식에 따라 일반적인 주제(도메인, 예: "법률" 또는 "금융")와 특정 작업(액션, 예: "요약" 또는 "코드 생성")을 두 단계로 구분합니다. 각 정책은 특정 모델과 연결되어 있으며, 개발자는 벤치마크 점수뿐만 아니라 실제 요구사항에 따라 라우팅 결정을 내릴 수 있습니다. 논문에서는 "이 분류체계는 사용자가 명확하고 체계적인 라우팅 정책을 정의하는 데 도움을 줍니다"라고 설명합니다. 라우팅 과정은 두 단계로 이루어집니다. 첫째, 선호도 맞춤 라우터 모델이 사용자의 쿼리와 모든 정책을 입력으로 받아 가장 적합한 정책을 선택합니다. 둘째, 매핑 함수가 선택된 정책을 해당 LLM에 연결합니다. 모델 선택 로직이 정책과 분리되어 있으므로, 새로운 모델을 추가하거나 기존 모델을 제거하거나 교체할 때 라우터 자체를 재학습하거나 수정할 필요가 없습니다. 이 분리 구조는 실시간 운영 환경에서 모델과 사용 사례가 계속 변화하는 상황에서도 유연성을 제공합니다. Arch-Router의 동작 Arch-Router는 1.5억 개의 파라미터를 가진 언어 모델로, 선호도 맞춤 라우팅을 위해 미세 조정되었습니다. 이 모델은 사용자의 쿼리와 전체 정책 설명을 입력으로 받아 가장 잘 일치하는 정책의 식별자를 생성합니다. 정책이 입력의 일부이므로, 시스템은 추론 시간에 컨텍스트 학습을 통해 새로운 또는 수정된 경로에 적응할 수 있습니다. 이 생성 방식은 Arch-Router가 미리 학습한 지식을 활용해 쿼리와 정책의 의미를 이해하고, 전체 대화 역사를 한 번에 처리할 수 있게 합니다. 대개 정책을 입력에 포함시키면 응답 시간이 느려질 수 있다는 우려가 있지만, 연구진은 Arch-Router를 매우 효율적으로 설계하였습니다. Katanemo 랩스의 창립자兼CEO인 살만 파라차(Salman Paracha)는 "라우팅 정책의 길이가 길어질 수 있지만, Arch-Router의 컨텍스트 윈도우를 쉽게 확장할 수 있어 응답 시간에 큰 영향을 미치지 않습니다"라고 설명합니다. 그는 또한 Arch-Router의 출력이 "image_editing"이나 "document_creation" 같은 짧은 정책 이름일 뿐이라, 응답 시간에 큰 영향을 미치지 않는다고 덧붙였습니다. 성능 평가 연구진은 Qwen 2.5 모델의 1.5억 파라미터 버전을 43,000개의 예시로 구성된 데이터셋으로 미세 조정하여 Arch-Router를 구축하였습니다. 이후 OpenAI, Anthropic, Google의 최신 독점 모델들과 비교하여 4개의 공공 데이터셋에서 대화형 AI 시스템의 성능을 평가하였습니다. 결과는 Arch-Router가 93.17%의 가장 높은 라우팅 점수를 달성하였으며, 다른 모든 모델, 특히 최상위 독점 모델들보다 평균 7.71% 높았습니다. 또한, 대화가 길어질수록 모델의 문맥 추적 능력이 더욱 뛰어나다는 점이 입증되었습니다. 실제 적용 사례 실제로, 이 접근 방식은 다양한 시나리오에서 이미 적용되고 있습니다. 예를 들어, 오픈 소스 코딩 도구에서 개발자들은 Arch-Router를 사용해 작업 플로우의 각 단계("코드 설계", "코드 이해", "코드 생성")를 가장 적합한 LLM으로 안내합니다. 마찬가지로, 기업은 문서 생성 요청을 Claude 3.7 Sonnet 모델에 보내면서 이미지 편집 작업은 Gemini 2.5 Pro 모델에 전송할 수 있습니다. 살만 파라차는 "이 시스템은 다양한 도메인의 개인 비서에서 사용자에게 다양한 작업을 할당할 수 있는 이상적인 도구입니다. 이 경우, Arch-Router는 개발자가 전체 사용자 경험을 통합하고 개선하는 데 도움을 줍니다"라고 말했습니다. 이 프레임워크는 Katanemo 랩스의 AI 네이티브 에이전트 프록시 서버인 Arch와 통합되어, 개발자가 복잡한 트래픽 형성 규칙을 구현할 수 있게 합니다. 새로운 LLM을 도입할 때, 팀은 특정 라우팅 정책에 대한 작은 부분의 트래픽을 새로운 모델에 전송하여 내부 메트릭으로 성능을 검증한 후, 자신 있게 트래픽을 완전히 전환할 수 있습니다. 회사는 이러한 과정을 기업 개발자들에게 더욱 원활하게 제공하기 위해 평가 플랫폼과도 통합 작업을 진행하고 있습니다. 평가 및 전망 Arch-Router와 Arch 전체는 기업들이 분산된 LLM 구현에서 통합된, 정책 기반의 시스템으로 이동하는 데 도움을 줍니다. "사용자의 작업이 다양할 경우, 우리의 프레임워크는 작업과 LLM의 분산을 통합된 경험으로 바꾸어, 최종 제품이 사용자에게 원활하게 느껴지도록 합니다"라고 파라차는 말합니다. industry insiders는 Arch-Router가 LLM 라우팅의 새로운 표준이 될 가능성이 크다고 평가하며, Katanemo 랩스의 기술이 AI 구현의 효율성과 사용자 경험을 크게 향상시킬 것으로 기대하고 있습니다. Katanemo 랩스는 AI 기술의 발전을 선도하는 스타트업으로, 다중 LLM 시스템의 실용적인 구현을 위한 혁신적인 솔루션을 제공하고 있습니다.