HyperAI초신경
Back to Headlines

AI가 스스로 도구를 작성하는 파이비전 출시

9일 전

AI 연구팀은 'PyVision'이라는 프레임워크를 발표하며, 인공지능이 스스로 도구를 작성하면서 사고하는 새로운 방식을 제시했다. 시각적 추론 작업은 AI 모델이 시각 정보를 해석하고 처리하는 데 있어 인지 능력과 논리적 사고를 필요로 한다. 이는 의료 진단, 시각 수학, 기호 퍼즐, 이미지 기반 질문 응답 등 다양한 분야에 적용된다. 성공적인 시각 추론을 위해서는 단순한 물체 인식을 넘어서 동적 적응, 추상화, 맥락적 추론이 필요하다. 모델은 이미지를 분석하고 관련 요소를 식별하며, 시각 입력에 기반한 설명이나 해결책을 생성해야 한다. 기존 모델들은 고정된 도구 집합과 단일 단계 처리에 의존해왔다. 예를 들어, Visual ChatGPT, HuggingGPT, ViperGPT와 같은 시스템은 분할 또는 탐지 모델을 포함하지만, 이들은 사전 정의된 작업 흐름에 제한된다. 이러한 구조는 창의성과 유연성을 제한하며, 작업 중 도구 집합을 수정하거나 확장할 수 없다. 또한, 반복적인 추론이 필요한 분야에서는 유용성이 떨어진다. 다단계 처리 기능이 부족하거나 제한되어 있어 깊이 있는 분석이 어려웠다. 이러한 문제를 해결하기 위해 상하이 AI 랩, 라이스 대학, 홍콩 과학기술대학, 싱가포르국립대학, SII 연구팀은 PyVision이라는 프레임워크를 개발했다. 이 프레임워크는 대규모 다모달 언어 모델(MLLMs)이 특정 시각 추론 문제에 맞춘 파이썬 기반 도구를 자동으로 생성하고 실행할 수 있도록 한다. PyVision은 정적 모듈에 얽매이지 않고, 파이썬을 주요 언어로 사용해 작업 중 도구를 동적으로 생성할 수 있다. 이는 모델이 작업 중에 전략을 조정하고, 결과를 검토하며 여러 단계에 걸쳐 코드나 추론을 개선할 수 있도록 한다. 실제로 PyVision은 사용자의 질문과 관련된 시각 입력을 받고, GPT-4.1이나 Claude-4.0-Sonnet 같은 MLLM이 파이썬 코드를 생성한다. 이 코드는 격리된 환경에서 실행되며, 생성된 결과는 텍스트, 시각, 또는 수치 형태로 모델로 다시 전달된다. 모델은 이 피드백을 바탕으로 계획을 수정하고 새로운 코드를 생성해 반복적으로 해결책을 도출한다. PyVision은 작업 간 상태 유지 기능을 지원해 순차적 추론이 가능하다. 또한, 프로세스 격리와 구조화된 입력/출력을 포함한 내부 안전 기능으로 복잡한 추론 작업에서도 안정적인 성능을 보장한다. OpenCV, NumPy, Pillow 등의 파이썬 라이브러리를 활용해 분할, OCR, 이미지 개선, 통계 분석 등의 작업을 수행한다. 정량적 벤치마크에서 PyVision의 효과성이 입증되었다. 시각 검색 기준 V*에서 GPT-4.1의 성능은 68.1%에서 75.9%로 7.8% 상승했다. 기호 시각 추론 기준 VLMsAreBlind-mini에서 Claude-4.0-Sonnet의 정확도는 48.1%에서 79.2%로 31.1% 향상되었다. 다른 작업에서도 성과를 보였다. MMMU와 VisualPuzzles에서 GPT-4.1은 각각 2.4%, 2.5% 향상되었고, MathVista와 VisualPuzzles에서 Claude-4.0-Sonnet은 각각 4.8%, 8.3% 증가했다. 성능 향상은 기반 모델의 강점에 따라 달라진다. 시각 능력이 뛰어난 모델은 시각 중심 작업에서 더 큰 이점을 얻고, 추론 능력이 뛰어난 모델은 추상적 문제에서 더 높은 성과를 보인다. PyVision은 기존 모델의 능력을 강화하는 것이지, 대체하거나 가리지 않는다. 이 연구는 시각 추론 분야에서 중요한 발전을 나타낸다. PyVision은 모델이 실시간으로 문제에 맞는 도구를 생성할 수 있도록 해, 기존의 한계를 극복한다. 이 접근법은 정적인 모델을 능동적인 시스템으로 바꾸며, 시각과 추론을 동적으로 연결해 복잡한 현실 세계의 시각적 문제를 해결할 수 있는 지능형, 유연한 AI로 나아가는 중요한 단계를 제공한다. 이 연구는 상하이 AI 랩, 라이스 대학, 홍콩 과학기술대학, 싱가포르국립대학, SII의 공동 연구 결과이다. 논문과 GitHub 페이지, 프로젝트는 모두 공개되어 있으며, 이 연구에 대한 모든 공로는 해당 연구팀에게 돌려진다.

Related Links