HyperAI

1. チュートリアルの概要

EvoSearch-codesは、香港科技大学と快手克玲チームが2025年5月1日に発表した進化的探索手法です。推論時の計算量の増加、画像・動画生成のサポート、そして最先端の拡散ベースおよびフローベースモデルのサポートにより、モデル生成品質が大幅に向上しています。EvoSearchは学習や勾配更新を必要とせず、一連のタスクで有意な最適結果を達成でき、優れたスケールアップ能力、堅牢性、汎化能力を備えています。テスト時の計算量が増加するにつれて、EvoSearchはSD2.1とFlux.1-devもGPT-4oに匹敵、あるいはそれを上回る可能性があることを示しました。動画生成においては、Wan 1.3BはWan 14BとHunyuan 13Bを上回る可能性があり、学習時のスケーリングを補完するテスト時のスケーリングの可能性と研究の余地を示しています。関連論文の結果は「テスト時間進化探索による画像およびビデオ生成のスケーリング”。

このチュートリアルでは、リソースとしてRTX A6000カード1枚を使用します。このチュートリアルでは、WANビデオ生成、SD画像生成、FLUX画像生成の3つのテスト例を提供します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

2.1 WANビデオ生成

ヒント: ビデオの生成には約 5 ～ 8 分かかります。

パラメータの説明

詳細設定
- ランダムシード: ランダムシード。
- 高さ: ビデオ生成の高さ。
- 幅: ビデオ生成の幅。
- ビデオの長さ: ビデオの長さを制御します。
- 推論手順: 推論手順。
- ガイダンススケール: 生成されたビデオに対するテキストキューの影響の強さを制御します。
- 反復: 反復回数。

2.2 SD画像生成

ヒント: プロンプト語として英語を使用することをお勧めします。

詳細設定
- ランダムシード: ランダムシード。
- 画像サイズ: 画像サイズ。
- 推論手順: 推論手順。
- CFG スケール: 生成された画像に対するテキストキューの影響の強さを制御します。
- 反復: 反復回数。

2.3 FLUX画像生成

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@misc{he2025scaling,
    title={Scaling Image and Video Generation via Test-Time Evolutionary Search},
    author={Haoran He and Jiajun Liang and Xintao Wang and Pengfei Wan and Di Zhang and Kun Gai and Ling Pan},
    year={2025},
    eprint={2505.17618},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

EvoSearch-codes: 進化アルゴリズムフレームワーク

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順