日付

2ヶ月前

サイズ

53.22 MB

タグ

画像生成

ライセンス

Apache 2.0

GitHub

meituan-longcat/LongCat-Image

論文URL

2512.07584

1. チュートリアルの概要

LongCat-Imageは、MeituanのLongCatチームが2025年12月にリリースしたオープンソースの画像生成・編集モデルです。バイリンガル（中国語と英語）シナリオ向けに設計されており、優れたテキスト画像生成およびテキストレンダリング機能を誇ります。わずか6バイトのパラメータで、このモデルは類似のオープンソースモデルをはるかに凌駕する効率性と性能を発揮し、複数のベンチマークテストで高品質でリアルなビジュアル生成結果を達成し、中国語テキストレンダリングの精度とカバレッジにおいて業界をリードするレベルに達しています。さらに、LongCat-Imageは高度な画像編集機能と包括的なオープンソースツールチェーンを提供し、開発者はより低い参入障壁でモデルの導入、研究、さらなる開発を可能にし、効率的でリアル、かつ高品質な画像出力をオープンソースエコシステムにもたらします。関連研究論文も入手可能です。 LongCat-Image 技術レポート。

このチュートリアルでは、デフォルトのリソースとして単一の RTX 5090 グラフィックカードを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. Webページにアクセスしたら、テキストを入力して画像を生成できます。

「Bad Gateway」と表示される場合は、モデルが初期化中です。モデルのサイズが大きいため、3～4分ほどお待ちいただき、ページを更新してください。

利用手順

パラメータの説明

カスタム LoRA (オプション)
- カスタム LoRA: 追加のスタイルまたは機能を持つ LoRA モデルをロードするための LoRA ウェイトの URL またはパスを入力します。
- LoRAスケールLoRA強度（範囲0～2）
出力解像度
- 幅: 生成される画像の幅（64〜2048、自分で入力するか、スライダーをドラッグすることができます）
- 身長: 生成される画像の高さ（64〜2048、手動で入力するか、スライダーをドラッグして入力できます）
ランダムシードの設定
- シード: 生成された画像のランダム性を制御する
  - -1 または「ランダム化」をチェックして、毎回ランダムシードを指定します。
  - 固定数値を入力すると同じ画像が再現されます。
- シードをランダム化するチェックすると、世代ごとに異なるシードが使用されます。
推論パラメータ
- 推論手順: 生成の品質と速度に影響します (範囲は 1 ～ 100、値が高いほど通常は画像の品質は高くなりますが、時間がかかります)。
- ガイダンススケール画像に対する「テキストヒント」の影響度を制御します (範囲 1 ～ 20)。
  - 値が高いほど、プロンプトの単語との一致度が高くなります。
  - 値が低いほど自由度が高くなり、ランダム性も高くなります。

引用情報

@article{LongCat-Image,
      title={LongCat-Image Technical Report},
      author={Meituan LongCat Team and  Hanghang Ma and Haoxian Tan and Jiale Huang and Junqiang Wu and Jun-Yan He and Lishuai Gao and Songlin Xiao and Xiaoming Wei and Xiaoqi Ma and Xunliang Cai and Yayong Guan and Jie Hu},
	    journal={arXiv preprint arXiv:2512.07584},
      year={2025}
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行

日付

2ヶ月前

サイズ

53.22 MB

タグ

画像生成

ライセンス

Apache 2.0

GitHub

meituan-longcat/LongCat-Image

論文URL

2512.07584

1. チュートリアルの概要

このチュートリアルでは、デフォルトのリソースとして単一の RTX 5090 グラフィックカードを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. Webページにアクセスしたら、テキストを入力して画像を生成できます。

「Bad Gateway」と表示される場合は、モデルが初期化中です。モデルのサイズが大きいため、3～4分ほどお待ちいただき、ページを更新してください。

利用手順

パラメータの説明

カスタム LoRA (オプション)
- カスタム LoRA: 追加のスタイルまたは機能を持つ LoRA モデルをロードするための LoRA ウェイトの URL またはパスを入力します。
- LoRAスケールLoRA強度（範囲0～2）
出力解像度
- 幅: 生成される画像の幅（64〜2048、自分で入力するか、スライダーをドラッグすることができます）
- 身長: 生成される画像の高さ（64〜2048、手動で入力するか、スライダーをドラッグして入力できます）
ランダムシードの設定
- シード: 生成された画像のランダム性を制御する
  - -1 または「ランダム化」をチェックして、毎回ランダムシードを指定します。
  - 固定数値を入力すると同じ画像が再現されます。
- シードをランダム化するチェックすると、世代ごとに異なるシードが使用されます。
推論パラメータ
- 推論手順: 生成の品質と速度に影響します (範囲は 1 ～ 100、値が高いほど通常は画像の品質は高くなりますが、時間がかかります)。
- ガイダンススケール画像に対する「テキストヒント」の影響度を制御します (範囲 1 ～ 20)。
  - 値が高いほど、プロンプトの単語との一致度が高くなります。
  - 値が低いほど自由度が高くなり、ランダム性も高くなります。

引用情報

@article{LongCat-Image,
      title={LongCat-Image Technical Report},
      author={Meituan LongCat Team and  Hanghang Ma and Haoxian Tan and Jiale Huang and Junqiang Wu and Jun-Yan He and Lishuai Gao and Songlin Xiao and Xiaoming Wei and Xiaoqi Ma and Xunliang Cai and Yayong Guan and Jie Hu},
	    journal={arXiv preprint arXiv:2512.07584},
      year={2025}
}

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

3ヶ月前

LongCat-Image-Edit-Interface: バイリンガルテキスト駆動型画像編集システム

1ヶ月前

Ovis-Image: 高品質画像生成モデル

2ヶ月前

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

2ヶ月前

Depth-Anything-3: あらゆる視点から視覚空間を復元する

2ヶ月前

Qwen-Image-Lightningのワンクリック展開

2ヶ月前

FLUX.2-dev: 画像生成・編集モデル

2ヶ月前

Krea-realtime-video: リアルタイムビデオ生成モデル

2ヶ月前

Supertonic: ONNXに基づく高速TTS音声合成モデル

2ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

LongCat-Image: バイリンガルテキスト駆動型画像生成システム

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

パラメータの説明

引用情報

AIでAIを構築

HyperAI Newsletters

Command Palette

LongCat-Image: バイリンガルテキスト駆動型画像生成システム

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

パラメータの説明

引用情報

関連 ノートブック

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

LongCat-Image-Edit-Interface: バイリンガルテキスト駆動型画像編集システム

Ovis-Image: 高品質画像生成モデル

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

Depth-Anything-3: あらゆる視点から視覚空間を復元する

Qwen-Image-Lightningのワンクリック展開

FLUX.2-dev: 画像生成・編集モデル

Krea-realtime-video: リアルタイムビデオ生成モデル

Supertonic: ONNXに基づく高速TTS音声合成モデル

AIでAIを構築

HyperAI Newsletters

Command Palette

LongCat-Image: バイリンガルテキスト駆動型画像生成システム

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

パラメータの説明

引用情報

関連 ノートブック

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

LongCat-Image-Edit-Interface: バイリンガルテキスト駆動型画像編集システム

Ovis-Image: 高品質画像生成モデル

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

Depth-Anything-3: あらゆる視点から視覚空間を復元する

Qwen-Image-Lightningのワンクリック展開

FLUX.2-dev: 画像生成・編集モデル

Krea-realtime-video: リアルタイムビデオ生成モデル

Supertonic: ONNXに基づく高速TTS音声合成モデル

AIでAIを構築

HyperAI Newsletters

関連 ノートブック

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

LongCat-Image-Edit-Interface: バイリンガルテキスト駆動型画像編集システム

Ovis-Image: 高品質画像生成モデル

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

Depth-Anything-3: あらゆる視点から視覚空間を復元する

Qwen-Image-Lightningのワンクリック展開

FLUX.2-dev: 画像生成・編集モデル

Krea-realtime-video: リアルタイムビデオ生成モデル

Supertonic: ONNXに基づく高速TTS音声合成モデル

関連 ノートブック

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

LongCat-Image-Edit-Interface: バイリンガルテキスト駆動型画像編集システム

Ovis-Image: 高品質画像生成モデル

HunyuanOCR: Tencent Hunyuan エンドツーエンド OCR

Depth-Anything-3: あらゆる視点から視覚空間を復元する

Qwen-Image-Lightningのワンクリック展開

FLUX.2-dev: 画像生成・編集モデル

Krea-realtime-video: リアルタイムビデオ生成モデル

Supertonic: ONNXに基づく高速TTS音声合成モデル

関連ノートブック

関連ノートブック

関連ノートブック

関連ノートブック