6ヶ月前

マルチモーダル

コンピュータビジョン

Yiyang Ma Xingchao Liu Xiaokang Chen Wen Liu Chengyue Wu Zhiyu Wu Zizheng Pan Zhenda Xie Haowei Zhang Xingkai yu

概要

本稿では、画像理解と画像生成を一つのモデル内で統合する強力なフレームワーク「JanusFlow」を提案する。JanusFlowは、自己回帰型言語モデルと、生成モデル分野における最先端手法である「補正流れ（rectified flow）」を統合するミニマルなアーキテクチャを導入している。本研究の核心的な発見は、補正流れが大規模言語モデルの枠組み内で直感的かつ簡便に学習可能であり、複雑なアーキテクチャの変更を必要としないことである。さらに、統合モデルの性能を向上させるために、以下の2つの鍵となる戦略を採用した：(i) 理解用エンコーダと生成用エンコーダの分離、(ii) 統合学習過程における両者の表現の整合化。広範な実験の結果、JanusFlowはそれぞれの分野で専門化されたモデルと同等または優れた性能を達成するとともに、既存の統合型アプローチと比較して、標準ベンチマークにおいて顕著な優位性を示した。本研究は、より効率的で汎用性の高い視覚言語モデルの実現に向けての一歩を示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

コンピュータビジョン

Yiyang Ma Xingchao Liu Xiaokang Chen Wen Liu Chengyue Wu Zhiyu Wu Zizheng Pan Zhenda Xie Haowei Zhang Xingkai yu

概要

本稿では、画像理解と画像生成を一つのモデル内で統合する強力なフレームワーク「JanusFlow」を提案する。JanusFlowは、自己回帰型言語モデルと、生成モデル分野における最先端手法である「補正流れ（rectified flow）」を統合するミニマルなアーキテクチャを導入している。本研究の核心的な発見は、補正流れが大規模言語モデルの枠組み内で直感的かつ簡便に学習可能であり、複雑なアーキテクチャの変更を必要としないことである。さらに、統合モデルの性能を向上させるために、以下の2つの鍵となる戦略を採用した：(i) 理解用エンコーダと生成用エンコーダの分離、(ii) 統合学習過程における両者の表現の整合化。広範な実験の結果、JanusFlowはそれぞれの分野で専門化されたモデルと同等または優れた性能を達成するとともに、既存の統合型アプローチと比較して、標準ベンチマークにおいて顕著な優位性を示した。本研究は、より効率的で汎用性の高い視覚言語モデルの実現に向けての一歩を示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています