日付

4ヶ月前

組織

タグ

マルチモーダル

論文URL

2502.05177

GitHub

VITA-MLLM/Long-VITA

GPUコンピュートの無料配布

RTX 5090のコンピュートリソースがわずか20時間分 $1 (価値 $7)

今すぐ受け取る

1. チュートリアルの概要

Long-VITAは、テンセントYouTuラボ、南京大学、厦門大学が2025年2月に発表した、長コンテキスト・マルチモーダル大規模モデルの研究成果です。このモデルは、短いコンテキストでは最高の精度を維持しながら、コンテキスト長を100万トークンまで拡張し、テキストや画像などのマルチモーダル入力を効率的に処理できます。関連論文のタイトルは「…」です。Long-VITA: ショートコンテキストの精度をリードする100万トークンまでの大規模マルチモーダルモデルのスケーリング”。

このチュートリアルでは、単一の RTX 4090 グラフィックカードを使用し、Long-VITA-16K_HF モデルを展開します。

2. 効果例

テキスト会話

画像理解

ビデオの理解

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてGradioインタラクティブインターフェースに入ります。

2. ウェブページに入ると、モデルを使用できます

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

予防

長いコンテキスト入力の場合、十分なビデオメモリを確保してください。非常に大きなテキストはバッチで読み込むことをお勧めします。
推論の遅延を減らすために、画像入力の辺の長さは 2048 ピクセル以下にすることをお勧めします。
推論が失敗した場合は、入力形式を確認するか、入力長を短くして再試行してください。

引用情報

このプロジェクトの引用情報は次のとおりです。

@misc{shen2025longvitascalinglargemultimodal,
      title={Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy}, 
      author={Yunhang Shen and Chaoyou Fu and Shaoqi Dong and Xiong Wang and Yi-Fan Zhang and Peixian Chen and Mengdan Zhang and Haoyu Cao and Ke Li and Xiawu Zheng and Yan Zhang and Yiyi Zhou and Ran He and Caifeng Shan and Rongrong Ji and Xing Sun},
      year={2025},
      eprint={2502.05177},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.05177}, 
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行 Discordで議論

日付

4ヶ月前

組織

タグ

マルチモーダル

論文URL

2502.05177

GitHub

VITA-MLLM/Long-VITA

GPUコンピュートの無料配布

RTX 5090のコンピュートリソースがわずか20時間分 $1 (価値 $7)

今すぐ受け取る

1. チュートリアルの概要

このチュートリアルでは、単一の RTX 4090 グラフィックカードを使用し、Long-VITA-16K_HF モデルを展開します。

2. 効果例

テキスト会話

画像理解

ビデオの理解

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてGradioインタラクティブインターフェースに入ります。

2. ウェブページに入ると、モデルを使用できます

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

予防

長いコンテキスト入力の場合、十分なビデオメモリを確保してください。非常に大きなテキストはバッチで読み込むことをお勧めします。
推論の遅延を減らすために、画像入力の辺の長さは 2048 ピクセル以下にすることをお勧めします。
推論が失敗した場合は、入力形式を確認するか、入力長を短くして再試行してください。

引用情報

このプロジェクトの引用情報は次のとおりです。

@misc{shen2025longvitascalinglargemultimodal,
      title={Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy}, 
      author={Yunhang Shen and Chaoyou Fu and Shaoqi Dong and Xiong Wang and Yi-Fan Zhang and Peixian Chen and Mengdan Zhang and Haoyu Cao and Ke Li and Xiawu Zheng and Yan Zhang and Yiyi Zhou and Ran He and Caifeng Shan and Rongrong Ji and Xing Sun},
      year={2025},
      eprint={2502.05177},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2502.05177}, 
}

Qwen3-TTS: 高品質で制御可能な多言語音声合成デモ

2ヶ月前

VibeVoice-ASR: 多機能エンドツーエンド音声認識デモ

2ヶ月前

ACE-Step 1.5: 音楽生成デモ

2ヶ月前

Phi-4-reasoning-vision-15B マルチモーダル推論ビジュアルモデルデモ

1ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

Long-VITA: 数百万のトークンを使ったマルチモーダル理解デモ

GPUコンピュートの無料配布

1. チュートリアルの概要

2. 効果例

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてGradioインタラクティブインターフェースに入ります。

2. ウェブページに入ると、モデルを使用できます

予防

引用情報

AIでAIを構築

HyperAI Newsletters

Command Palette

Long-VITA: 数百万のトークンを使ったマルチモーダル理解デモ

GPUコンピュートの無料配布

1. チュートリアルの概要

2. 効果例

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてGradioインタラクティブインターフェースに入ります。

2. ウェブページに入ると、モデルを使用できます

予防

引用情報

関連ノートブック

Qwen3-TTS: 高品質で制御可能な多言語音声合成デモ

VibeVoice-ASR: 多機能エンドツーエンド音声認識デモ

ACE-Step 1.5: 音楽生成デモ

Phi-4-reasoning-vision-15B マルチモーダル推論ビジュアルモデルデモ

AIでAIを構築

HyperAI Newsletters

Command Palette

Long-VITA: 数百万のトークンを使ったマルチモーダル理解デモ

GPUコンピュートの無料配布

1. チュートリアルの概要

2. 効果例

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてGradioインタラクティブインターフェースに入ります。

2. ウェブページに入ると、モデルを使用できます

予防

引用情報

関連ノートブック

Qwen3-TTS: 高品質で制御可能な多言語音声合成デモ

VibeVoice-ASR: 多機能エンドツーエンド音声認識デモ

ACE-Step 1.5: 音楽生成デモ

Phi-4-reasoning-vision-15B マルチモーダル推論ビジュアルモデルデモ

AIでAIを構築

HyperAI Newsletters

関連ノートブック

Qwen3-TTS: 高品質で制御可能な多言語音声合成デモ

VibeVoice-ASR: 多機能エンドツーエンド音声認識デモ

ACE-Step 1.5: 音楽生成デモ

Phi-4-reasoning-vision-15B マルチモーダル推論ビジュアルモデルデモ

関連ノートブック

Qwen3-TTS: 高品質で制御可能な多言語音声合成デモ

VibeVoice-ASR: 多機能エンドツーエンド音声認識デモ

ACE-Step 1.5: 音楽生成デモ

Phi-4-reasoning-vision-15B マルチモーダル推論ビジュアルモデルデモ