HyperAIHyperAI

Command Palette

Search for a command to run...

토큰 사용량이 30% 감소했습니다. "아바타"에서 영감을 받은 이기종 지능형 에이전트 프레임워크인 Eywa는 언어 모델과 도메인별 기본 모델을 효율적으로 결합합니다.

Featured Image

최근 몇 년 동안 에이전트형 AI는 인공지능 분야에서 가장 중요한 진화 방향 중 하나로 자리 잡았습니다. 자동 프로그래밍과 지식 검색부터 작업 계획에 이르기까지, 대규모 언어 모델(LLM)은 점차 "챗봇"에서 자율적인 추론, 행동 및 협업 기능을 갖춘 지능형 에이전트 시스템으로 진화하고 있습니다. 그러나 점점 더 분명해지는 문제점도 대두되고 있습니다.거의 모든 주류 지능형 에이전트 시스템은 본질적으로 "언어 중심적" 시스템입니다.작업 계획, 도구 호출, 지능형 에이전트 간의 협업 등 모든 것은 자연어라는 통합 인터페이스를 기반으로 구축됩니다.

이러한 패러다임은 인터넷 질의응답이나 사무 자동화와 같은 시나리오에서는 잘 작동합니다. 그러나 인공지능이 과학 연구 분야에 본격적으로 진입하기 시작하면 문제가 빠르게 발생합니다. 과학 분야는 본래 언어의 범주에 속하지 않기 때문입니다. 시계열 데이터, 물질 결정 구조, 단백질 서열, 기상 격자, 원격 감지 관측 데이터 등은 고도로 구조화된 경우가 많아 효과적으로 "텍스트화"하는 것이 불가능할 수도 있습니다.이를 강제로 자연어로 번역하면 정보 손실이 발생할 뿐만 아니라 대규모 모델에서 토큰 소비량이 극도로 높아지고 추론 중복이 발생하는 문제가 발생합니다.

이러한 맥락에서,일리노이 대학교 어바나-샴페인 캠퍼스(UIUC)의 연구팀은 언어 에이전트와 도메인별 기본 모델을 연결하는 이종 에이전트 프레임워크인 Eywa를 제안했습니다.연구진은 도메인 특화 기반 모델과 언어 모델을 결합하여 새로운 EywaAgent를 개발했습니다. 이 설계를 통해 언어 에이전트는 특수 작업에 대한 추론, 계획 및 의사 결정 과정에서 기반 모델을 안내할 수 있습니다.

연구진은 물리, 생명, 사회 과학을 포함한 여러 분야에서 Eywa에 대한 체계적인 평가를 수행했습니다. 그 결과, 언어 모델에만 의존하는 기존 시스템과 비교했을 때 Eywa는 효용-비용 균형을 지속적으로 개선하는 것으로 나타났습니다. 단일 LLM 에이전트 기반 시스템과 비교했을 때, EywaAgent는 물리, 생명, 사회 과학 분야의 다양한 작업에서 평균 약 71 TP3T의 효용 향상, 약 301 TP3T의 토큰 감소, 그리고 약 101 TP3T의 실행 시간 단축을 달성했습니다. 마찬가지로, 다중 에이전트 시나리오에서도 EywaMAS는 토큰 소비와 실행 시간을 줄이면서 효용을 향상시키는 결과를 보였습니다.

"이질적인 과학적 기반 모델 협력"이라는 제목의 관련 연구 결과는 arXiv에 사전 공개 논문으로 게재되었습니다.

연구 하이라이트:

* 정형화된 데이터 및 도메인별 데이터를 다루는 작업에서 Eywa는 시스템 성능을 효과적으로 향상시킬 수 있습니다.

* Eywa는 전용 하위 모델과의 효과적인 협업을 통해 언어 기반 추론에 대한 의존도를 줄입니다.

* Eywa는 다중 에이전트 시나리오로 확장될 수 있습니다. EywaMAS에서는 EywaAgent가 기존 다중 에이전트 시스템의 언어 에이전트를 대체할 수 있으며, EywaOrchestra에서는 플래너가 언어 에이전트와 EywaAgent를 동적으로 조정하여 복잡한 작업을 해결할 수 있습니다.

논문 보기:

https://hyper.ai/papers/2604.27351

EywaBench: "다중 작업, 다중 영역, 다중 모드"를 지원하는 과학적 평가 시스템.

연구팀은 모델 프레임워크를 제안하기 전에 기존 과학 AI 벤치마크의 오랜 문제점을 먼저 지적했습니다.다시 말해, 현재 대부분의 과학적 벤치마크는 일반적으로 단일 작업 유형만 다루거나, 단일 영역에만 초점을 맞추거나, 단일 데이터 형식만 지원합니다.따라서 이는 과학적 에이전트 시스템에 진정으로 필요한 기능을 온전히 반영하지 못하는 경우가 많습니다.

연구팀은 특히 기존 벤치마크가 시계열 데이터와 표 형식 데이터라는 두 가지 핵심 데이터 유형에 대한 충분한 평가를 제공하지 못하고 있다고 지적합니다. 이 두 가지 유형의 데이터는 실제 과학 컴퓨팅 및 산업 시스템의 핵심 기반을 구성합니다. 따라서 본 논문에서는 새로운 평가 프레임워크를 제안합니다.EywaBench는 이기종, 다중 작업 및 다중 도메인 과학적 추론을 위한 확장 가능한 벤치마크입니다.

EywaBench는 다음을 포함하되 이에 국한되지 않는 여러 기존 데이터 세트를 기반으로 구축되었습니다.

* 딥프린시플

* MMLU-Pro

* fev-bench

* 타브아레나

EywaBench는 다중 작업 및 다중 도메인 적용 기능을 갖추고 있습니다.여기에는 자연어, 시계열 및 표 형식 데이터라는 세 가지 핵심 데이터 유형이 포함됩니다.모든 과제는 세 가지 과학 분야로 구성됩니다. 첫 번째는 재료, 에너지 및 항공우주를 포함하는 물리 과학이고, 두 번째는 생물학, 임상 및 신약 개발을 포함하는 생명 과학이며, 세 번째는 경제, 비즈니스 및 인프라와 같은 시나리오를 다루는 사회 과학입니다.

더욱 중요한 것은 EywaBench 자체가 확장 가능하다는 점입니다. 이를 통해 연구팀은 새로운 시간 범위, 변수 조합 및 컨텍스트 구성을 추가하여 작업 규모를 지속적으로 확장할 수 있으며, 새로운 시계열 데이터 세트와 표 형식 데이터 세트에 접근하여 새로운 과학 분야로 확장할 수도 있습니다.

Eywa: 언어 에이전트와 도메인별 기반 모델 연결

에이와의 핵심적인 영감은 영화 아바타의 "차헤일루" 개념에서 비롯되었습니다. 판도라에서 나비족은 신경 연결을 통해 용이나 군마와 같은 다양한 종과 직접적인 협력 관계를 구축할 수 있으며, 이를 통해 여러 생명체가 통합된 행동 능력을 발휘할 수 있습니다.

연구팀은 현재의 에이전트 시스템 역시 유사한 문제에 직면해 있다고 생각합니다. LLM은 고도의 추론 및 계획 능력을 갖추고 있지만 가공되지 않은 과학 데이터를 처리하는 데는 능숙하지 않으며, 도메인 기반 모델은 뛰어난 전문 능력을 갖추고 있지만 복잡한 작업 추론을 수행할 수 없습니다.따라서 본 논문에서는 아래 그림과 같이 언어 모델과 도메인 기반 모델 간의 양방향 통신 메커니즘을 구축하는 FM-LLM "Tsaheylu" 인터페이스를 제안합니다.

아바타 속 판도라 생태계와 에이전트형 AI 생태계 비교

1단계: EywaAgent 빌드

Eywa 에이전트 프레임워크를 향한 첫 번째 단계는 기본 모델에 언어 기반 추론 인터페이스를 추가하여 에이전트 시스템 내에서 고수준 추론 프로세스에 참여할 수 있도록 하는 통합 추상 프레임워크인 EywaAgent를 제안하는 것입니다.이 개념의 핵심은 고수준의 계획 및 제어를 실행하기 위한 언어 모델과 전문적인 역량을 제공하는 도메인별 기본 모델 간의 강력한 연계를 구축하는 것입니다.

EywaAgent는 FM-LLM "Tsaheylu" 체인이라고 하는 양방향 통신 인터페이스를 통해 언어 기반 추론과 도메인별 연산을 결합합니다.이 링크를 통해 언어 모델을 올바르게 구성하고 특수 계산을 위해 기본 모델을 호출할 수 있습니다.동시에 출력 결과는 추론 과정에 매끄럽게 다시 통합됩니다.

Tsaheylu 인터페이스는 두 개의 함수로 구성됩니다. 질의 컴파일러 ϕk는 작업 상태를 기본 모델에 대한 구조화된 호출로 변환하는 역할을 하고, 응답 어댑터 ψk는 기본 모델의 출력을 호환 가능한 언어의 표현으로 변환하는 역할을 합니다. 이러한 통신 파이프라인을 통해 에이전트는 계산을 내부적으로 수행할지 또는 기본 모델에 위임할지를 동적으로 결정할 수 있으므로 일반적인 추론과 특화된 실행 간에 유연하게 적응할 수 있습니다.

2단계: Eywa 에이전트 시스템으로 확장

EywaAgent를 플러그 앤 플레이 에이전트 모듈로 정의한 후, 연구팀은 보다 복잡하고 이질적인 협업을 지원하기 위해 이 패러다임을 다중 에이전트 시나리오로 확장했습니다. 이를 위해 본 논문에서는 두 가지 상호 보완적인 시스템 수준 추상화를 제안합니다.

에이와마스

EywaAgent는 분산형 다중 에이전트 환경으로 확장되어 여러 전문 에이전트가 상호 작용하고 협력할 수 있도록 합니다. EywaMAS의 통신 및 상태 업데이트 동역학은 표준 다중 에이전트 시스템 모델을 따르며, 에이전트는 수신된 정보를 기반으로 상태를 업데이트하고 메시지를 생성하며, 상호 작용은 통신 토폴로지에 의해 제어됩니다. 이 방식은 다양한 언어 모델, 기본 모델 및 에이전트 유형의 유연한 조합을 지원합니다.


EywaMAS는 기존 다중 에이전트 시스템의 확장 기능입니다.

에이와오케스트라

다양한 에이전트 및 토폴로지 구성에 대한 다양한 실제 작업 요구 사항을 해결하기 위해, 본 프레임워크는 동적 오케스트레이션 시스템인 EywaOrchestra를 도입합니다. EywaOrchestra는 디렉터 역할을 하며, 입력 작업에 따라 적절한 언어 모델, 기본 모델 및 통신 토폴로지를 선택하여 이기종 다중 에이전트 시스템을 동적으로 인스턴스화합니다. 이러한 적응형 오케스트레이션을 통해 시스템은 정적 설계의 한계를 극복하고, 모델 및 구조적 적응성을 활용하여 각 작업에 최적의 구성을 선택할 수 있습니다.

Eywa는 "효용-비용" 균형 측면에서 지속적인 개선을 이루어냅니다.

연구팀은 통일된 실험 프로토콜에 따라 EywaBench를 사용하여 모든 방법을 테스트했습니다. 아래 표는 EywaBench 과학 과제에서 모든 방법의 전반적인 성능을 보여주며, 실험 결과는 다음과 같은 몇 가지 핵심 결론을 도출합니다.


과학 임무에서 EywaBench의 전반적인 성능 비교

참고: 이 표는 유용성(↑ 높을수록 좋음), 추론 시간(↓ 낮을수록 좋음), 토큰 소비량(↓ 낮을수록 좋음)의 세 가지 측면에서 모든 방법을 비교합니다. 최적의 결과는 굵게 표시되어 있으며, 차선책은 밑줄로 표시되어 있습니다.

첫째, EywaAgent는 동일한 백본 환경에서 시스템 품질과 효율성을 모두 향상시킵니다.해당 단일 에이전트 LLM 기준선과 비교했을 때, EywaAgent는 평균 효용을 6.61 TP3T 향상시킵니다. 또한, 도메인별 하위 모델에 대한 계산 위임이 크게 이루어져 추론 지연 시간이 현저히 감소하고 토큰 소모량도 약 301 TP3T만큼 줄어듭니다.

둘째로, EywaMAS는 과학적 시나리오에서 기존의 동형 다중 에이전트 시스템보다 훨씬 뛰어난 성능을 보여줍니다.실험 결과, EywaMAS는 모든 방법 중에서 가장 높은 전반적인 유용성을 달성하는 것으로 나타났습니다. Refine과 비교했을 때 EywaMAS는 성능 면에서 상당한 우위를 보였으며, Debate와 비교했을 때는 동일한 토론 토폴로지에서 더 높은 유용성을 제공할 뿐만 아니라 더 적은 토큰을 사용했습니다.

세 번째 중요한 발견은 "이질적인 언어 모델"에만 의존하는 것은 과학적 과제를 해결하기에 불충분하다는 것입니다.본 논문에서 제시된 이질적인 LLM 전용 MAS 방법(예: MoA 및 X-MAS)은 동질성이 높은 다중 에이전트 기준선보다 일관되게 우수한 성능을 보이지 못했습니다. 이는 과학적 과제에서 진정으로 중요한 요소는 "여러 개의 서로 다른 LLM을 결합하는 것"이 아니라 "교차 모달 이질성"을 도입하는 것임을 시사합니다. 다시 말해, 언어 모델을 추가하는 것보다 금융 시계열 모델이나 생물학적 예측 모델을 추가하는 것이 더 가치 있는 경우가 많습니다.

이 논문은 또한 모든 영역에서 복잡한 다중 에이전트 협업의 이점을 누릴 수 있는 것은 아니라고 지적합니다. 경제 및 비즈니스와 같은 하위 영역에서는 단일 에이전트 EywaAgent가 이미 매우 경쟁력이 있습니다. 이는 복잡한 다중 에이전트 토폴로지가 항상 최적의 선택은 아니라는 것을 의미합니다. 어떤 작업에서는 과도한 협업이 오히려 추가적인 오버헤드를 발생시킬 수도 있습니다.

이 실험은 또한 더 낮은 비용과 더 높은 자동화 수준을 갖춘 EywaOrchestra가 전문가가 설계한 EywaMAS에 비해 거의 완벽한 성능을 달성했음을 보여주었습니다. 수동 설정이 필요한 EywaMAS와는 달리,EywaOrchestra의 시스템 아키텍처는 conductor에 의해 완전히 자동으로 구축됩니다.그럼에도 불구하고, 이 시스템의 유용성은 수동으로 설계된 시스템에 근접하며, 일부 하위 영역에서는 오히려 능가합니다. 또한, 동적 오케스트레이션 메커니즘은 추론 지연 시간과 토큰 소모량을 크게 줄여줍니다. 이는 작업 적응형 시스템 오케스트레이션이 자동화 수준을 향상시킬 뿐만 아니라 추론 비용을 효과적으로 최적화한다는 것을 보여줍니다.

결론

지난 몇 년간 인공지능 산업의 주요 화두는 거의 항상 "대규모 모델"이었습니다. 즉, 더 큰 매개변수, 더 긴 컨텍스트, 그리고 더 강력한 추론 능력을 갖춘 모델 말입니다. 업계 전체가 "모든 문제를 해결할 수 있는 범용 모델"을 구축하려고 노력하고 있는 것입니다.

하지만 Eywa가 제시한 방향은 "모달리티 기반 협업"이 과학적 시나리오에서 다중 에이전트 시스템의 역량을 효과적으로 향상시키고, 미래에 이질적인 기본 모델의 협업 추론을 위한 새로운 발전 경로를 제공할 수 있음을 보여줍니다. 다시 말해, 미래에 진정으로 중요한 것은 "전능한 AI"가 아니라 "이질적인 전문가들을 조직하여 협력적으로 작업할 수 있는 AI 시스템"입니다.

참고문헌:
https://arxiv.org/abs/2604.27351
https://hyper.ai/cn/papers/2604.27351

토큰 사용량이 30% 감소했습니다. "아바타"에서 영감을 받은 이기종 지능형 에이전트 프레임워크인 Eywa는 언어 모델과 도메인별 기본 모델을 효율적으로 결합합니다. | 뉴스 | HyperAI초신경