6ヶ月前

マルチモーダル表現

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

An Yang Junshu Pan Junyang Lin Rui Men Yichang Zhang Jingren Zhou Chang Zhou

概要

CLIP（Radfordら、2021年）の著しい成功を受けて、視覚・言語統合事前学習における対照学習の研究および応用が大きく進展した。本研究では、中国語の画像-テキストペアを大規模に構築したデータセットを構築し、その多くは公開されている既存データセットから収集されたものである。この新規データセットを用いて、中国語向けCLIPモデルの事前学習を実施した。さらに、複数のサイズ（7700万～9億5800万パラメータ）を持つ5種類の中国語CLIPモデルを開発した。また、モデル性能の向上を図るため、2段階の事前学習手法を提案した。第一段階では画像エンコーダを固定した状態でモデルを学習し、第二段階ではすべてのパラメータを最適化することで、より高い性能を達成する。包括的な実験の結果、中国語CLIPはゼロショット学習および微調整（fine-tuning）設定において、MUGE、Flickr30K-CN、COCO-CNの各ベンチマークで最先端の性能を達成することが示された。さらに、ELEVATERベンチマーク（Liら、2022年）に基づく評価においても、ゼロショット画像分類タスクで競争力のある性能を発揮した。本研究で開発したコード、モデルおよびデモは、https://github.com/OFA-Sys/Chinese-CLIP にて公開している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル表現

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

An Yang Junshu Pan Junyang Lin Rui Men Yichang Zhang Jingren Zhou Chang Zhou

概要

CLIP（Radfordら、2021年）の著しい成功を受けて、視覚・言語統合事前学習における対照学習の研究および応用が大きく進展した。本研究では、中国語の画像-テキストペアを大規模に構築したデータセットを構築し、その多くは公開されている既存データセットから収集されたものである。この新規データセットを用いて、中国語向けCLIPモデルの事前学習を実施した。さらに、複数のサイズ（7700万～9億5800万パラメータ）を持つ5種類の中国語CLIPモデルを開発した。また、モデル性能の向上を図るため、2段階の事前学習手法を提案した。第一段階では画像エンコーダを固定した状態でモデルを学習し、第二段階ではすべてのパラメータを最適化することで、より高い性能を達成する。包括的な実験の結果、中国語CLIPはゼロショット学習および微調整（fine-tuning）設定において、MUGE、Flickr30K-CN、COCO-CNの各ベンチマークで最先端の性能を達成することが示された。さらに、ELEVATERベンチマーク（Liら、2022年）に基づく評価においても、ゼロショット画像分類タスクで競争力のある性能を発揮した。本研究で開発したコード、モデルおよびデモは、https://github.com/OFA-Sys/Chinese-CLIP にて公開している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Chinese CLIP：中国語における対照的視覚言語事前学習 | 記事 | HyperAI超神経