3ヶ月前

テキストから画像生成

マルチモーダル

マルチモーダル

コンピュータビジョン

Yifu Luo Penghui Du Bo Li Sinan Du Tiantian Zhang Yongzhe Chang Kai Wu Kun Gai Xueqian Wang

概要

グループ相対方策最適化（GRPO）は、フロー・マッチングに基づくテキストから画像への生成（T2I生成）において大きな潜在能力を示しているが、二つの主要な課題に直面している。すなわち、アドバンテージの不正確な割り当て、および生成過程における時間的ダイナミクスの無視である。本研究では、最適化のパラダイムをステップレベルからチャンクレベルへと移行することで、これらの問題を効果的に緩和できると主張する。この考えに基づき、本研究ではT2I生成における初めてのチャンクレベルGRPOに基づく手法であるChunk-GRPOを提案する。本手法の核心は、連続するステップを、フロー・マッチングの内在的な時間的ダイナミクスを捉える一貫性のある「チャンク」としてグループ化し、そのチャンク単位で方策を最適化することにある。さらに、性能向上をさらに促進するためのオプションとして重み付きサンプリング戦略を導入している。広範な実験により、Chunk-GRPOが好みの整合性および画像品質の両面で優れた成果を達成したことが示され、GRPOに基づく手法におけるチャンクレベル最適化の可能性が顕著に示された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

3ヶ月前

テキストから画像生成

マルチモーダル

マルチモーダル

コンピュータビジョン

Yifu Luo Penghui Du Bo Li Sinan Du Tiantian Zhang Yongzhe Chang Kai Wu Kun Gai Xueqian Wang

概要

グループ相対方策最適化（GRPO）は、フロー・マッチングに基づくテキストから画像への生成（T2I生成）において大きな潜在能力を示しているが、二つの主要な課題に直面している。すなわち、アドバンテージの不正確な割り当て、および生成過程における時間的ダイナミクスの無視である。本研究では、最適化のパラダイムをステップレベルからチャンクレベルへと移行することで、これらの問題を効果的に緩和できると主張する。この考えに基づき、本研究ではT2I生成における初めてのチャンクレベルGRPOに基づく手法であるChunk-GRPOを提案する。本手法の核心は、連続するステップを、フロー・マッチングの内在的な時間的ダイナミクスを捉える一貫性のある「チャンク」としてグループ化し、そのチャンク単位で方策を最適化することにある。さらに、性能向上をさらに促進するためのオプションとして重み付きサンプリング戦略を導入している。広範な実験により、Chunk-GRPOが好みの整合性および画像品質の両面で優れた成果を達成したことが示され、GRPOに基づく手法におけるチャンクレベル最適化の可能性が顕著に示された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています