2ヶ月前

画像間変換

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Hongyu Li Manyuan Zhang Dian Zheng Ziyu Guo Yimeng Jia Kaituo Feng Hao Yu Yexin Liu Yan Feng Peng Pei

概要

指示に基づく画像編集は、画像生成基盤モデルの恩恵を受けて注目される研究分野となり、高い美的品質を達成する一方で、指示に従う能力が主な課題となっている。従来の手法は、教師あり学習や強化学習を用いて指示の遵守を向上させているが、固有の確率性および熟考（deliberation）の欠如により、単一ターンでの成功確率は依然として限定的である。本研究では、「編集しながら考える」ことを可能にする熟考型編集フレームワークを提案する。このフレームワークは、人間の認知プロセスを模倣する形で、結果の批判（Critiquing）と指示の精緻化（Refining）を繰り返し行い、生成を再実行することで満足のいく結果を得る「Think-while-Edit」サイクルを反復的に実行する。具体的には、このフレームワークの推論エンジンとして単一の多モーダル言語モデル（MLLM）であるEditThinkerを訓練し、批判スコア、推論プロセス、および精緻化された指示を統合的に生成する。さらに、強化学習を用いてEditThinkerの思考プロセスと編集行動を整合させることで、より的確な指示改善を実現する。4つのベンチマークにおける広範な実験により、本手法が任意の画像編集モデルの指示遵守能力を大幅に向上させることを示した。本研究で開発したデータ構築フレームワーク、データセット、およびモデルを公開し、研究コミュニティの発展に貢献する予定である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

2ヶ月前

画像間変換

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Hongyu Li Manyuan Zhang Dian Zheng Ziyu Guo Yimeng Jia Kaituo Feng Hao Yu Yexin Liu Yan Feng Peng Pei

概要

指示に基づく画像編集は、画像生成基盤モデルの恩恵を受けて注目される研究分野となり、高い美的品質を達成する一方で、指示に従う能力が主な課題となっている。従来の手法は、教師あり学習や強化学習を用いて指示の遵守を向上させているが、固有の確率性および熟考（deliberation）の欠如により、単一ターンでの成功確率は依然として限定的である。本研究では、「編集しながら考える」ことを可能にする熟考型編集フレームワークを提案する。このフレームワークは、人間の認知プロセスを模倣する形で、結果の批判（Critiquing）と指示の精緻化（Refining）を繰り返し行い、生成を再実行することで満足のいく結果を得る「Think-while-Edit」サイクルを反復的に実行する。具体的には、このフレームワークの推論エンジンとして単一の多モーダル言語モデル（MLLM）であるEditThinkerを訓練し、批判スコア、推論プロセス、および精緻化された指示を統合的に生成する。さらに、強化学習を用いてEditThinkerの思考プロセスと編集行動を整合させることで、より的確な指示改善を実現する。4つのベンチマークにおける広範な実験により、本手法が任意の画像編集モデルの指示遵守能力を大幅に向上させることを示した。本研究で開発したデータ構築フレームワーク、データセット、およびモデルを公開し、研究コミュニティの発展に貢献する予定である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています