HiDream-E1-1: コマンドベースの画像エディタ
1. チュートリアルの概要

HiDream-E1.1モデルは、HiDream.aiが2025年7月にリリースしたオープンソースの画像編集モデルです。独自のSparse Diffusion Transformerアーキテクチャに基づき、メガピクセル解像度をサポートし、MITオープンソースライセンスの下でライセンスされています。このモデルは、「コメント」と呼ばれる自然言語による画像編集機能を実装しており、ユーザーは特別なソフトウェアスキルを必要とせずに、シンプルな言語コマンドで色調整、スタイルの変換、要素の追加と削除などの複雑なタスクを実行できます。
このチュートリアルでは、デュアル GPU A6000 コンピューティング リソースを使用し、中国語、英語、フランス語などの言語をサポートしています。
2. プロジェクト例

3. 操作手順
1. コンテナを起動します

2. ウェブページに入ったら、モデルを使用することができます
「Bad Gateway」と表示される場合は、モデルが初期化中です。モデルのサイズが大きいため、ページを更新する前に5~6分ほどお待ちください。画像処理には約5~6分かかりますので、しばらくお待ちください。

4. 議論
🖌️ 高品質なプロジェクトを見かけたら、ぜひバックグラウンドでメッセージを残して推薦してください! また、チュートリアル交流グループも開設しました。QRコードをスキャンして[SD Tutorial]とコメントするだけで、グループに参加して様々な技術的な問題について議論したり、応用効果を共有したりすることができます。↓

引用情報
このプロジェクトの引用情報は次のとおりです。
@InProceedings{fastvlm2025,
author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2025},
}