Command Palette
Search for a command to run...

摘要
照片修整已成为当代视觉叙事的重要组成部分,使用户能够捕捉美学并表达创造力。虽然像Adobe Lightroom这样的专业工具提供了强大的功能,但它们需要相当高的专业知识和手动操作。相比之下,现有的基于人工智能的解决方案虽然提供了自动化,但往往调整能力有限且泛化性能较差,无法满足多样化的个性化编辑需求。为了弥合这一差距,我们推出了JarvisArt,这是一种由多模态大语言模型(MLLM)驱动的代理程序,能够理解用户意图,模仿专业艺术家的推理过程,并智能协调Lightroom中的200多种修整工具。JarvisArt经历了两阶段的训练过程:首先通过链式思维监督微调(Chain-of-Thought supervised fine-tuning)建立基本的推理能力和工具使用技能;然后通过面向修整的组相对策略优化(Group Relative Policy Optimization for Retouching, GRPO-R)进一步提升其决策能力和工具熟练度。我们还提出了Agent-to-Lightroom协议,以实现与Lightroom的无缝集成。为了评估性能,我们开发了MMArt-Bench基准测试集,该基准集由真实用户的编辑数据构建而成。JarvisArt展示了用户友好的交互体验、卓越的泛化能力和对全局和局部调整的精细控制,为智能化照片修整开辟了一条新途径。值得注意的是,在MMArt-Bench的内容保真度平均像素级指标上,JarvisArt比GPT-4o提高了60%,同时保持了相当的指令执行能力。项目页面:https://jarvisart.vercel.app/。