LLaVA-OneVision マルチモーダル全天ビジョンモデル デモ
ワンクリックで LLaVA-OneVision を導入

チュートリアルの紹介
LLaVA-OneVision は、2024 年に ByteDance、南洋理工大学、香港中文大学、香港科学技術大学の研究者によって共同開発されたオープン マルチモーダル大規模モデルです。画像、テキスト、画像を扱うことができます。 -テキスト インターリーブ入力とビデオ。これは、これら 3 つの重要なコンピューター ビジョン シナリオにおけるオープン マルチモーダル モデルのパフォーマンス ボトルネックを同時に突破できる最初の単一モデルです。
異なるモダリティやシーン間の強力な転移学習機能を実現するだけでなく、タスクの転移を通じたビデオ理解やクロスシーン機能においても大きな利点を発揮します。 LLaVA-OneVisionは、静止画像の解析や動的な動画の解析など、多様なビジュアルタスクに対応し、高品質な出力を提供できるのが特徴です。さらに、このモデルは視覚マーカーの最大数の一貫性に重点を置くように設計されており、さまざまなシナリオでの視覚表現のバランスを確保できるため、シナリオ間での機能の移行がサポートされます。
主な特徴:
- 最大 2304*2304 ピクセルまでのさまざまな入力解像度をサポートします。
- anyres_max_9 モードでは、単一のイメージ入力を最大 729*(9+1) トークンで表すことができます。
- 複数の画像およびビデオ入力をサポートします。マルチイメージ入力はイメージあたり 729 トークンで表され、ビデオ入力はフレームあたり 196 トークンで表されます。注: このチュートリアルを開始するには、1 枚のカード A6000 が必要です。
実行メソッド
1. 克隆并启动容器,待容器状态为「运行中」。由于模型较大,加载模型需要等待约 1 分钟,拷贝 API 地址到浏览器中打开即可

2. 可以看到如下界面

3. 点击下方上传单个/多个图片、文件或视频,并输入文本提示

4. 回车,生成回答

話し合ってコミュニケーションする
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓
