HyperAI超神経

Step1X-Edit: 画像編集ツール

プロジェクト概要

GitHubスター

このチュートリアルでは、リソースとして単一の RTX A6000 カードを使用します。

Step1X-Editは、StepFunチームが2025年4月25日にリリースした最先端の画像編集モデルで、GPT-4oやGemini2 Flashなどのクローズドソースモデルに匹敵する性能を提供することを目指しています。具体的には、Step1X-EditはマルチモーダルLLMを用いて参照画像とユーザーの編集指示を処理し、潜在的埋め込みを抽出し、拡散画像デコーダーと統合して対象画像を取得します。このモデルの総パラメータ量は19B(7B MLLM + 12B DiT)で、精確なセマンティック解析、アイデンティティ一貫性維持、高精度な領域レベル制御という3つの主要機能を備えています。テキスト置換、スタイル転送、マテリアル変換、キャラクターレタッチなど、11種類の高頻度画像編集タスクをサポートしています。

Step1X-Editは、MLLMとDiTのディープフュージョンを実現した初のオープンソースシステムであり、編集精度と画像忠実度を大幅に向上させます。最新の画像編集ベンチマークであるGEdit-Benchにおいて、Step1X-Editはセマンティック一貫性、画像品質、総合スコアにおいて既存のオープンソースモデルを上回り、GPT-4oやGemini 2.0 Flashに匹敵する性能を発揮しました。Step1X-Edit: 一般的な画像編集のための実用的なフレームワーク”。

Step1X-Edit には、自然言語画像編集タスクのための次のコア機能があります。

  • セマンティック精度解析:自然言語で記述された複雑な組み合わせ指示をサポートします。指示はテンプレートを必要とせず、複数ラウンドおよび複数タスクの編集ニーズに柔軟に対応します。また、画像内のテキストの認識、置換、再構築もサポートします。
  • アイデンティティの一貫性の保持: 編集後も顔、姿勢、アイデンティティの特徴を安定して保持できるため、仮想人物、電子商取引モデル、ソーシャルイメージなどの一貫性が求められるシナリオに適しています。
  • 高精度なエリアレベル制御: 指定されたエリア内のテキスト、マテリアル、カラーなどの方向編集をサポートし、統一された画像スタイルを維持し、より洗練された制御機能を提供します。

プロジェクト例

ステップの実行

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってページを更新してください。

2. ウェブページに入ると、モデルと対話することができます

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

Githubユーザーに感謝 ジャンジュンチャン  このチュートリアルの展開では、プロジェクト参照情報は次のとおりです。

@article{liu2025step1x-edit,
      title={Step1X-Edit: A Practical Framework for General Image Editing}, 
      author={Shiyu Liu and Yucheng Han and Peng Xing and Fukun Yin and Rui Wang and Wei Cheng and Jiaqi Liao and Yingming Wang and Honghao Fu and Chunrui Han and Guopeng Li and Yuang Peng and Quan Sun and Jingwei Wu and Yan Cai and Zheng Ge and Ranchen Ming and Lei Xia and Xianfang Zeng and Yibo Zhu and Binxing Jiao and Xiangyu Zhang and Gang Yu and Daxin Jiang},
      journal={arXiv preprint arXiv:2504.17761},
      year={2025}
}