8ヶ月前

概要

写真のレタッチは、現代の視覚的な物語表現において不可欠な要素となり、ユーザーが美しさを捉え、創造性を表現する手段となっています。プロ向けツールであるAdobe Lightroomは強力な機能を提供していますが、それらを使用するには相当な専門知識と手動での作業が必要です。一方、既存のAIベースのソリューションは自動化を提供しますが、調整の柔軟性に乏しく、汎用性も低いため、多様で個別の編集ニーズに対応できていないことがしばしばあります。このギャップを埋めるために、私たちはJarvisArtというマルチモーダル大規模言語モデル（MLLM）駆動型エージェントを導入します。JarvisArtはユーザーの意図を理解し、プロのアーティストの推論過程を模倣し、Lightroom内の200以上のレタッチツールを知能的に統合管理します。JarvisArtは二段階の学習プロセスを通じて訓練されます。まず、基本的な推論能力和工具使用技能（tool-use skills）を確立するための思考連鎖監督微調整（Chain-of-Thought supervised fine-tuning）を行い、次にレタッチ用グループ相対方策最適化（Group Relative Policy Optimization for Retouching, GRPO-R）によって意思決定能力和工具操作能力（tool proficiency）をさらに向上させます。また、Lightroomとのシームレスな統合を促進するためにAgent-to-Lightroom Protocolを提案しています。性能評価のために、MMArt-Benchという新しいベンチマークを開発しました。これは現実世界でのユーザー編集から構築されたものです。JarvisArtはユーザーフレンドリーなインタラクションと優れた汎用性を持ち、全体的な調整と部分的な調整に対する細かい制御能力も示しており、知能的な写真レタッチの新たな道を開いています。特にMMArt-Benchにおけるコンテンツ忠実度に関する平均ピクセルレベル指標でGPT-4oよりも60%改善しており、指示への従順性も同等レベルを維持しています。プロジェクトページ: https://jarvisart.vercel.app/

ソースPDF コードを表示