6ヶ月前

視覚質問応答

マルチモーダル

マルチモーダル

コンピュータビジョン

Weixiong Lin Ziheng Zhao Xiaoman Zhang Chaoyi Wu Ya Zhang Yanfeng Wang Weidi Xie

概要

大規模なデータセット上で学習された基礎モデルは、近年、コンピュータビジョン（CV）および自然言語処理（NLP）分野で著しい進展を遂げている。一方、バイオメディカル分野ではデータの不足により、その発展が著しく遅れをとっている。この問題に対処するため、本研究では、PubMedCentralのオープンアクセスサブセットから収集した160万件の画像-キャプションペアを含むバイオメディカルデータセット「PMC-OA」を構築・公開した。これは従来のデータセットと比べて8倍の規模であり、多様なモダリティや疾患をカバーしている。また、画像-キャプションの対応は、大部分がより細粒度なレベル、すなわちサブ図とサブキャプションレベルで正確に一致している。PMC-OA上でCLIP型モデルを事前学習した結果、本研究で提案するモデル「PMC-CLIP」は、ROCOにおける画像-テキスト検索、MedMNISTの画像分類、医療分野向けVQA（視覚的質問応答）など、さまざまな下流タスクにおいて最先端の性能を達成した。具体的には、画像-テキスト検索でR@10が+8.1%向上、画像分類では正解率が+3.9%向上した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

視覚質問応答

マルチモーダル

マルチモーダル

コンピュータビジョン

Weixiong Lin Ziheng Zhao Xiaoman Zhang Chaoyi Wu Ya Zhang Yanfeng Wang Weidi Xie

概要

大規模なデータセット上で学習された基礎モデルは、近年、コンピュータビジョン（CV）および自然言語処理（NLP）分野で著しい進展を遂げている。一方、バイオメディカル分野ではデータの不足により、その発展が著しく遅れをとっている。この問題に対処するため、本研究では、PubMedCentralのオープンアクセスサブセットから収集した160万件の画像-キャプションペアを含むバイオメディカルデータセット「PMC-OA」を構築・公開した。これは従来のデータセットと比べて8倍の規模であり、多様なモダリティや疾患をカバーしている。また、画像-キャプションの対応は、大部分がより細粒度なレベル、すなわちサブ図とサブキャプションレベルで正確に一致している。PMC-OA上でCLIP型モデルを事前学習した結果、本研究で提案するモデル「PMC-CLIP」は、ROCOにおける画像-テキスト検索、MedMNISTの画像分類、医療分野向けVQA（視覚的質問応答）など、さまざまな下流タスクにおいて最先端の性能を達成した。具体的には、画像-テキスト検索でR@10が+8.1%向上、画像分類では正解率が+3.9%向上した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

PMC-CLIP：生物医学文書を用いた対照的言語-画像事前学習 | 記事 | HyperAI超神経