Command Palette

Search for a command to run...

4ヶ月前

JarvisArt: インテリジェントな写真レタッチエージェントを用いた人間の芸術的創造性の解放

JarvisArt: インテリジェントな写真レタッチエージェントを用いた人間の芸術的創造性の解放

要約

写真のレタッチは、現代の視覚的な物語表現において不可欠な要素となり、ユーザーが美しさを捉え、創造性を表現する手段となっています。プロ向けツールであるAdobe Lightroomは強力な機能を提供していますが、それらを使用するには相当な専門知識と手動での作業が必要です。一方、既存のAIベースのソリューションは自動化を提供しますが、調整の柔軟性に乏しく、汎用性も低いため、多様で個別の編集ニーズに対応できていないことがしばしばあります。このギャップを埋めるために、私たちはJarvisArtというマルチモーダル大規模言語モデル(MLLM)駆動型エージェントを導入します。JarvisArtはユーザーの意図を理解し、プロのアーティストの推論過程を模倣し、Lightroom内の200以上のレタッチツールを知能的に統合管理します。JarvisArtは二段階の学習プロセスを通じて訓練されます。まず、基本的な推論能力和工具使用技能(tool-use skills)を確立するための思考連鎖監督微調整(Chain-of-Thought supervised fine-tuning)を行い、次にレタッチ用グループ相対方策最適化(Group Relative Policy Optimization for Retouching, GRPO-R)によって意思決定能力和工具操作能力(tool proficiency)をさらに向上させます。また、Lightroomとのシームレスな統合を促進するためにAgent-to-Lightroom Protocolを提案しています。性能評価のために、MMArt-Benchという新しいベンチマークを開発しました。これは現実世界でのユーザー編集から構築されたものです。JarvisArtはユーザーフレンドリーなインタラクションと優れた汎用性を持ち、全体的な調整と部分的な調整に対する細かい制御能力も示しており、知能的な写真レタッチの新たな道を開いています。特にMMArt-Benchにおけるコンテンツ忠実度に関する平均ピクセルレベル指標でGPT-4oよりも60%改善しており、指示への従順性も同等レベルを維持しています。プロジェクトページ: https://jarvisart.vercel.app/

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
JarvisArt: インテリジェントな写真レタッチエージェントを用いた人間の芸術的創造性の解放 | 論文 | HyperAI超神経