日付

7ヶ月前

サイズ

600.63 MB

タグ

サイエンスのためのAI

医学

画像説明

ライセンス

Apache 2.0

GitHub

DCDmllm/HealthGPT

論文URL

2502.09838

1. チュートリアルの概要

HealthGPTは、浙江大学、中国電子科技大学、アリババ、香港科技大学、シンガポール国立大学が2025年3月16日に共同でリリースした大規模医療視覚言語モデル（Med-LVLM）であり、異種知識適応技術を通じて医療視覚理解および生成タスクの統一フレームワークを実現します。革新的な異種低ランク適応（H-LoRA）技術を採用し、視覚理解および生成タスクの知識を独立したプラグインに保存することで、タスク間の競合を回避します。HealthGPTには、それぞれPhi-3-miniとPhi-4の事前学習済み言語モデルに基づく、HealthGPT-M3（38億パラメータ）とHealthGPT-L14（140億パラメータ）の2つのバージョンがあります。このモデルは、階層的視覚知覚（HVP）と3段階学習戦略（TLS）を導入し、視覚特徴学習とタスク適応機能を最適化します。関連する研究論文が利用可能です。 HealthGPT: 異種知識適応による理解と生成を統合する医療用大規模視覚言語モデル ICML 2025に含まれ、スポットライトとして選ばれました。

このチュートリアルでは、RTX A6000カード1枚のリソースを使用します。英語の使用を推奨します。

このプロジェクトでは、次の 2 つのモデルが提供されます。

HealthGPT-M3: 速度とメモリ使用量の削減を最適化した小型バージョン。
HealthGPT-L14: より高いパフォーマンスとより複雑なタスク向けに設計された大型バージョンです。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

Githubユーザーに感謝 xxxjjjyyy1 このチュートリアルの展開。このプロジェクトの引用情報は次のとおりです。

@misc{lin2025healthgptmedicallargevisionlanguage,
      title={HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation}, 
      author={Tianwei Lin and Wenqiao Zhang and Sijing Li and Yuqian Yuan and Binhe Yu and Haoyuan Li and Wanggui He and Hao Jiang and Mengze Li and Xiaohui Song and Siliang Tang and Jun Xiao and Hui Lin and Yueting Zhuang and Beng Chin Ooi},
      year={2025},
      eprint={2502.09838},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.09838}, 
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行 Discordで議論

日付

7ヶ月前

サイズ

600.63 MB

タグ

サイエンスのためのAI

医学

画像説明

ライセンス

Apache 2.0

GitHub

DCDmllm/HealthGPT

論文URL

2502.09838

1. チュートリアルの概要

このチュートリアルでは、RTX A6000カード1枚のリソースを使用します。英語の使用を推奨します。

このプロジェクトでは、次の 2 つのモデルが提供されます。

HealthGPT-M3: 速度とメモリ使用量の削減を最適化した小型バージョン。
HealthGPT-L14: より高いパフォーマンスとより複雑なタスク向けに設計された大型バージョンです。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

4. 議論

引用情報

Githubユーザーに感謝 xxxjjjyyy1 このチュートリアルの展開。このプロジェクトの引用情報は次のとおりです。

@misc{lin2025healthgptmedicallargevisionlanguage,
      title={HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation}, 
      author={Tianwei Lin and Wenqiao Zhang and Sijing Li and Yuqian Yuan and Binhe Yu and Haoyuan Li and Wanggui He and Hao Jiang and Mengze Li and Xiaohui Song and Siliang Tang and Jun Xiao and Hui Lin and Yueting Zhuang and Beng Chin Ooi},
      year={2025},
      eprint={2502.09838},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.09838}, 
}

PaddleOCR-VL: マルチモーダルドキュメント解析

3ヶ月前

JarvisArt-プレビュースマート写真レタッチプロキシ

1ヶ月前

SoulX-Podcast: 複数の方言に対応したポッドキャスト品質の長文音声生成。

2ヶ月前

Chandra: 高精度ドキュメントOCR

2ヶ月前

Depth-Anything-3: あらゆる視点から視覚空間を復元する

2ヶ月前

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

2ヶ月前

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

3ヶ月前

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

3ヶ月前

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

2ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

HealthGPT: AI医療アシスタント

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

4. 議論

引用情報

AIでAIを構築

HyperAI Newsletters

Command Palette

HealthGPT: AI医療アシスタント

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

4. 議論

引用情報

関連 ノートブック

PaddleOCR-VL: マルチモーダルドキュメント解析

JarvisArt-プレビュー スマート写真レタッチプロキシ

SoulX-Podcast: 複数の方言に対応したポッドキャスト品質の長文音声生成。

Chandra: 高精度ドキュメントOCR

Depth-Anything-3: あらゆる視点から視覚空間を復元する

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

AIでAIを構築

HyperAI Newsletters

Command Palette

HealthGPT: AI医療アシスタント

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

4. 議論

引用情報

関連 ノートブック

PaddleOCR-VL: マルチモーダルドキュメント解析

JarvisArt-プレビュー スマート写真レタッチプロキシ

SoulX-Podcast: 複数の方言に対応したポッドキャスト品質の長文音声生成。

Chandra: 高精度ドキュメントOCR

Depth-Anything-3: あらゆる視点から視覚空間を復元する

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

AIでAIを構築

HyperAI Newsletters

関連 ノートブック

PaddleOCR-VL: マルチモーダルドキュメント解析

JarvisArt-プレビュー スマート写真レタッチプロキシ

SoulX-Podcast: 複数の方言に対応したポッドキャスト品質の長文音声生成。

Chandra: 高精度ドキュメントOCR

Depth-Anything-3: あらゆる視点から視覚空間を復元する

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

関連 ノートブック

PaddleOCR-VL: マルチモーダルドキュメント解析

JarvisArt-プレビュー スマート写真レタッチプロキシ

SoulX-Podcast: 複数の方言に対応したポッドキャスト品質の長文音声生成。

Chandra: 高精度ドキュメントOCR

Depth-Anything-3: あらゆる視点から視覚空間を復元する

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

PixelReasoner-RL: ピクセルレベルの視覚推論モデル

LongCat-Video: MeituanのオープンソースAIビデオ生成モデル

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

関連ノートブック

JarvisArt-プレビュースマート写真レタッチプロキシ

関連ノートブック

JarvisArt-プレビュースマート写真レタッチプロキシ

関連ノートブック

JarvisArt-プレビュースマート写真レタッチプロキシ

関連ノートブック

JarvisArt-プレビュースマート写真レタッチプロキシ