HyperAIHyperAI

Command Palette

Search for a command to run...

FastVLM: 超高速視覚言語モデル

Date

4ヶ月前

Size

501.81 MB

License

Other

Paper URL

2412.13303

1. チュートリアルの概要

GitHubスター

Appleが2025年9月にリリースしたFastVLMは、高解像度画像処理の効率と性能を向上させる高性能ビジュアル言語モデル(VLM)です。このモデルは、最新のFastViTHDハイブリッドビジュアルエンコーダーを導入し、ビジュアルトークンの数を効果的に削減し、エンコード時間を大幅に短縮します。既存のVLMと同等の性能を維持しながら、FastVLMは処理速度を大幅に向上させます。例えば、LLaVA-1.5設定では、最初のトークン生成時間(TTFT)を他のモデルと比較して3.2倍短縮します。FastVLMは、さまざまなVLMベンチマークで優れたパフォーマンスを発揮し、モデルサイズが小さく、必要なトレーニングデータも少ないため、マルチモーダル理解タスクにおける効率性と実用性を実証しています。関連する研究論文も入手可能です。 FastVLM: ビジョン言語モデルのための効率的なビジョンエンコーディングCVPR 2025 に含まれています。

このプロジェクトでは、次の 2 つのモデルが提供されます。

  • ファストVLM-0.5B
  • ファストVLM-7B

このチュートリアルでは、単一の RTX 4090 カードのリソースを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@InProceedings{fastvlm2025,
  author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
  title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  month = {June},
  year = {2025},
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています