FastVLM: 超高速視覚言語モデル

1. チュートリアルの概要

GitHubスター

FastVLMは、Appleチームが2025年9月に発表した効率的な視覚言語モデル(VLM)であり、高解像度画像処理の効率と性能を向上させることができます。このモデルは、新しいハイブリッド視覚エンコーダFastViTHDを導入し、視覚トークンの数を効果的に削減し、エンコード時間を大幅に短縮します。既存のVLMと同等の性能を維持しながら、FastVLMは処理速度を大幅に向上させます。例えば、LLaVA-1.5設定では、最初のトークン生成時間(TTFT)が他のモデルと比較して3.2倍短縮されます。FastVLMはさまざまなVLMベンチマークで良好なパフォーマンスを示し、モデルサイズが小さく、トレーニングデータの要件が少ないため、マルチモーダル理解タスクにおける高い効率性と実用性を実証しています。関連論文の結果は「FastVLM: ビジョン言語モデルのための効率的なビジョンエンコーディング」はCVPR 2025に含まれています。

このプロジェクトでは、次の 2 つのモデルが提供されます。

  • ファストVLM-0.5B
  • ファストVLM-7B

このチュートリアルでは、単一の RTX 4090 カードのリソースを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@InProceedings{fastvlm2025,
  author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
  title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  month = {June},
  year = {2025},
}