8ヶ月前

テキストから画像生成

マルチモーダル

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Daechul Ahn¹,§ Daneul Kim² Gwangmo Song³ Seung Hwan Kim³ Honglak Lee³,⁴ Dongyeop Kang⁵ Jonghyun Choi¹,†

概要

ストーリー可視化（SV）は、テキスト記述から視覚的な詳細を描画するだけでなく、複数の文にわたる長期的なコンテクストを符号化することの難しさから、挑戦的なテキストから画像への生成タスクです。これまでの研究では主に各文に対して意味的に関連性のある画像を生成することに焦点が当てられてきましたが、与えられた段落全体にわたるコンテクストを符号化して、文脈的に説得力のある画像（例えば、正しいキャラクターを使用したり、適切なシーンの背景を持つ画像）を生成することは依然として課題となっています。この問題に対処するために、我々は双方向トランスフォーマー枠組み向けの新しいメモリアーキテクチャとオンラインテキスト拡張を提案します。この方法は、訓練中に複数の擬似記述を生成し、推論時の言語変動に対するより良い汎化性能を得るために補助的な監督として使用します。Pororo-SV および Flintstones-SV という2つの人気SVベンチマークでの広範な実験において、提案手法はFID、キャラクターF1スコア、フレーム精度、BLEU-2/3スコア、R-適合度などの様々な指標で現行の最先端技術を大幅に上回り、同程度またはそれ以下の計算量で優れた結果を示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

テキストから画像生成

マルチモーダル

コンピュータビジョン

マルチモーダル

コンピュータビジョン

Daechul Ahn¹,§ Daneul Kim² Gwangmo Song³ Seung Hwan Kim³ Honglak Lee³,⁴ Dongyeop Kang⁵ Jonghyun Choi¹,†

概要

ストーリー可視化（SV）は、テキスト記述から視覚的な詳細を描画するだけでなく、複数の文にわたる長期的なコンテクストを符号化することの難しさから、挑戦的なテキストから画像への生成タスクです。これまでの研究では主に各文に対して意味的に関連性のある画像を生成することに焦点が当てられてきましたが、与えられた段落全体にわたるコンテクストを符号化して、文脈的に説得力のある画像（例えば、正しいキャラクターを使用したり、適切なシーンの背景を持つ画像）を生成することは依然として課題となっています。この問題に対処するために、我々は双方向トランスフォーマー枠組み向けの新しいメモリアーキテクチャとオンラインテキスト拡張を提案します。この方法は、訓練中に複数の擬似記述を生成し、推論時の言語変動に対するより良い汎化性能を得るために補助的な監督として使用します。Pororo-SV および Flintstones-SV という2つの人気SVベンチマークでの広範な実験において、提案手法はFID、キャラクターF1スコア、フレーム精度、BLEU-2/3スコア、R-適合度などの様々な指標で現行の最先端技術を大幅に上回り、同程度またはそれ以下の計算量で優れた結果を示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています