2달 전

FaSTA^*: 효율적인 다단계 이미지 편집을 위한 빠르고 느린 경로 에이전트 및 서브루틴 채굴

Advait Gupta, Rishie Raj, Dang Nguyen, Tianyi Zhou
FaSTA^*: 효율적인 다단계 이미지 편집을 위한 빠르고 느린 경로 에이전트 및 서브루틴 채굴
초록

우리는 비용 효율적인 신경심볼릭 에이전트를 개발하여 "이미지에서 벤치를 감지하고 분홍색으로 다시 색칠하세요. 또한, 보다 명확한 시야를 위해 고양이를 제거하고 벽을 노란색으로 다시 색칠하세요."와 같은 어려운 다단계 이미지 편집 작업을 처리합니다. 이 에이전트는 대형 언어 모델(LLM)의 빠른 고수준 하위 작업 계획과 각 하위 작업에 대한 느린 정확한 도구 사용 및 국소 A^ 검색을 결합하여 비용 효율적인 도구 경로 -- AI 도구 호출의 시퀀스 -- 를 찾습니다. 유사한 하위 작업에서 A^의 비용을 절약하기 위해, 우리는 LLM을 통해 이전에 성공한 도구 경로에 대한 귀납적 추론을 수행하여 자주 사용되는 하위 루틴을 지속적으로 추출/정제하고 이를 새로운 도구로 재사용합니다. 이 적응형 빠르고 느린 계획에서 먼저 고수준 하위 루틴을 탐색하고, 실패할 경우에만 저수준 A^ 검색이 활성화됩니다. 재사용 가능한 심볼릭 하위 루틴은 유사한 이미지에 적용되는 동일한 유형의 하위 작업에서 탐색 비용을 크게 절약하며, 이로 인해 인간처럼 작동하는 'FaSTA^' -- 각 하위 작업에 대해 LLM이 먼저 규칙 기반의 하위 루틴 선택을 시도하는 빠른 하위 작업 계획 후 느린 A^ 검색 -- 가 생성됩니다. 대부분의 작업은 이 방법으로 처리될 것으로 예상되며, 새로운이고 어려운 하위 작업에는 느린 A^ 검색만 트리거됩니다. 최근 이미지 편집 접근법들과 비교하여, FaSTA^*는 성공률 측면에서 최신 기술 베이스라인과 경쟁력을 유지하면서도 상당히 더 많은 계산 효율성을 보여줍니다.

FaSTA^*: 효율적인 다단계 이미지 편집을 위한 빠르고 느린 경로 에이전트 및 서브루틴 채굴 | 최신 연구 논문 | HyperAI초신경