HyperAIHyperAI

Command Palette

Search for a command to run...

オンラインチュートリアル | GLM-Image: 自己回帰型デコーダと拡散型デコーダのハイブリッドアーキテクチャに基づく指示の正確な理解と正しいテキストの記述

Featured Image

画像生成の分野では、拡散モデルは安定した学習と強力な汎化能力により、徐々に主流になってきました。しかし、複雑な情報を正確に伝える必要があるポスター、PPT、科学インフォグラフィックなどの「知識集約型」シナリオに直面した場合、従来のモデルには、指示の理解と詳細な特性評価の両方を同時に達成できないという欠点があります。もう一つの長年の問題は、生成された画像内のテキストにストロークエラーがあったり、認識が困難であったりすることが多く、それが実用的価値に重大な影響を与えることです。

これに基づいて、2026年1月、ZhipuはHuaweiと共同で次世代画像生成モデルGLM-Imageをオープンソース化しました。このモデルは、Ascend Atlas 800T A2 と MindSpore AI フレームワークを使用してトレーニングされました。その中核的な特徴は、「自己回帰+拡散デコーダー」(9B自己回帰モデル+7B DiTデコーダー)という革新的なハイブリッドアーキテクチャの採用です。これは、言語モデルの深い理解機能と拡散モデルの高品質な生成機能を組み合わせたものです。

さらに、トークナイザー戦略を改良することで、モデルは再トレーニングを必要とせずに 1024×1024 から 2048×2048 までの任意のスケールの画像生成をネイティブにサポートします。 GLM-Image の革新性は、次の 2 つの側面にも反映されています。

*テキストレンダリングの問題を解決します。CVTG-2KやLongText-Benchなどの権威ある評価において、テキスト精度を含む主要な指標はオープンソースモデルの中で第1位にランクされ、画像内のテキスト生成の精度が大幅に向上しました。

*高性能でコスト効率の高いアプリケーションを定義します。API 呼び出しモードでは、1 つの画像を生成するコストはわずか 0.1 元で、これは主流のクローズド ソース モデルのコストの 1/10 ~ 1/3 に過ぎず、商用アプリケーションにとってコスト効率の高いオプションを提供します。

現在のところ、「GLM-Image Accurate Semantic High-Fidelity Image Generation Model」が、HyperAI ウェブサイト (hyper.ai) のチュートリアル セクションで公開されました。あなたの無限の創造力を解き放ちましょう!

オンライン体験:https://go.hyper.ai/BSF7G

効果例:

デモの実行

1. hyper.aiのホームページにアクセス後、「GLM-Image Precise Semantic High-Fidelity Image Generation Model」を選択するか、「チュートリアル」ページから選択します。ページがリダイレクトされたら、「このチュートリアルをオンラインで実行」をクリックします。

2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

注:ページの右上で言語を切り替えることができます。現在、中国語と英語が利用可能です。このチュートリアルでは英語で手順を説明します。

3. 「NVIDIA RTX Pro 6000」と「PyTorch」のイメージを選択し、必要に応じて「Pay As You Go」または「Daily Plan/Weekly Plan/Monthly Plan」を選択し、「ジョブ実行を続行」をクリックします。

HyperAI は新規ユーザー向けに登録ボーナスを提供しています。わずか $1 で、RTX 5090 のコンピューティング パワー (元の価格は $7) を 20 時間利用でき、リソースは無期限に有効です。

4. リソースが割り当てられるのを待ちます。ステータスが「実行中」に変わったら、「ワークスペースを開く」をクリックしてJupyterワークスペースに入ります。

効果実証

ページがリダイレクトされたら、左側の README ページをクリックし、上部の [実行] をクリックします。

プロセスが完了したら、右側の API アドレスをクリックしてデモ ページに移動します。

以上が今回HyperAIがおすすめするチュートリアルです。ぜひ皆さんも体験してみてください!

チュートリアルのリンク:

https://go.hyper.ai/BSF7G