日付

9ヶ月前

組織

タグ

論文URL

ライセンス

其他

GitHub

apple/ml-fastvlm7.4k

1. チュートリアルの概要

Appleが2025年9月にリリースしたFastVLMは、高解像度画像処理の効率と性能を向上させる高性能ビジュアル言語モデル（VLM）です。このモデルは、最新のFastViTHDハイブリッドビジュアルエンコーダーを導入し、ビジュアルトークンの数を効果的に削減し、エンコード時間を大幅に短縮します。既存のVLMと同等の性能を維持しながら、FastVLMは処理速度を大幅に向上させます。例えば、LLaVA-1.5設定では、最初のトークン生成時間（TTFT）を他のモデルと比較して3.2倍短縮します。FastVLMは、さまざまなVLMベンチマークで優れたパフォーマンスを発揮し、モデルサイズが小さく、必要なトレーニングデータも少ないため、マルチモーダル理解タスクにおける効率性と実用性を実証しています。関連する研究論文も入手可能です。 FastVLM: ビジョン言語モデルのための効率的なビジョンエンコーディングCVPR 2025 に含まれています。

このプロジェクトでは、次の 2 つのモデルが提供されます。

ファストVLM-0.5B
ファストVLM-7B

このチュートリアルでは、単一の RTX 4090 カードのリソースを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

引用情報

このプロジェクトの引用情報は次のとおりです。

@InProceedings{fastvlm2025,
  author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
  title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  month = {June},
  year = {2025},
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

Notebook の概要

レベル

入門

トピック

大規模言語モデル開発生成AI コンピュータビジョン

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このノートブックを実行 Discordで議論

日付

9ヶ月前

組織

タグ

論文URL

ライセンス

其他

GitHub

apple/ml-fastvlm7.4k

1. チュートリアルの概要

このプロジェクトでは、次の 2 つのモデルが提供されます。

ファストVLM-0.5B
ファストVLM-7B

このチュートリアルでは、単一の RTX 4090 カードのリソースを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

引用情報

このプロジェクトの引用情報は次のとおりです。

@InProceedings{fastvlm2025,
  author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
  title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  month = {June},
  year = {2025},
}

Notebook の概要

レベル

入門

トピック

大規模言語モデル開発生成AI コンピュータビジョン

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

FastVLM: 超高速視覚言語モデル

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

引用情報

Notebook の概要

AIでAIを構築

HyperAI Newsletters

Command Palette

FastVLM: 超高速視覚言語モデル

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

引用情報

Notebook の概要

AIでAIを構築

HyperAI Newsletters

Command Palette

FastVLM: 超高速視覚言語モデル

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

引用情報

Notebook の概要

AIでAIを構築

HyperAI Newsletters