Command Palette
Search for a command to run...

초록
사진 보정은 현대 시각적 스토리텔링의 중요한 부분이 되어 사용자가 미학을 포착하고 창의성을 표현할 수 있게 해주고 있습니다. 전문적인 도구인 Adobe Lightroom은 강력한 기능을 제공하지만, 상당한 전문성과 수작업이 필요합니다. 반면에 기존의 AI 기반 솔루션들은 자동화를 제공하지만, 조정 가능성이 제한적이고 일반화가 부족하여 다양한 개인화된 편집 요구를 충족시키지 못하는 경우가 많습니다. 이러한 격차를 메우기 위해 우리는 JarvisArt를 소개합니다. JarvisArt는 사용자의 의도를 이해하고 전문 예술가들의 추론 과정을 모방하며, Lightroom 내에서 200여 개 이상의 보정 도구를 지능적으로 조율하는 다중 모달 대형 언어 모델(Multi-Modal Large Language Model, MLLM) 기반 에이전트입니다. JarvisArt는 두 단계의 학습 과정을 거칩니다: 기본적인 추론 및 도구 사용 능력을 확립하기 위한 초기 사고 과정 감독 학습(Chain-of-Thought supervised fine-tuning)과 그 다음으로 보정을 위한 그룹 상대 정책 최적화(Group Relative Policy Optimization for Retouching, GRPO-R)로 결정 making 및 도구 숙련도를 더욱 향상시킵니다. 또한 Lightroom과 원활한 통합을 돕기 위해 에이전트-라이트룸 프로토콜(Agent-to-Lightroom Protocol)을 제안합니다. 성능 평가를 위해 우리는 실제 사용자 편집에서 구성된 새로운 벤치마크인 MMArt-Bench를 개발했습니다. JarvisArt는 사용자 친화적인 상호 작용, 뛰어난 일반화 능력, 그리고 전반적인 조정과 부분적인 조정 모두에 대한 세밀한 제어력을 보여주며, 지능적인 사진 보정의 새로운 방향성을 제시하고 있습니다. 특히, 내용 충실성 측면에서 MMArt-Bench에서 평균 픽셀 단위 메트릭에서 GPT-4o보다 60% 개선된 성능을 나타내면서 유사한 명령어 수행 능력을 유지하고 있습니다. 프로젝트 페이지: https://jarvisart.vercel.app/.