ワンクリックで LLaVA-OneVision を導入

チュートリアルの紹介

LLaVA-OneVision は、2024 年に ByteDance、南洋理工大学、香港中文大学、香港科学技術大学の研究者によって共同開発されたオープンマルチモーダル大規模モデルです。画像、テキスト、画像を扱うことができます。 -テキストインターリーブ入力とビデオ。これは、これら 3 つの重要なコンピュータービジョンシナリオにおけるオープンマルチモーダルモデルのパフォーマンスボトルネックを同時に突破できる最初の単一モデルです。

異なるモダリティやシーン間の強力な転移学習機能を実現するだけでなく、タスクの転移を通じたビデオ理解やクロスシーン機能においても大きな利点を発揮します。 LLaVA-OneVisionは、静止画像の解析や動的な動画の解析など、多様なビジュアルタスクに対応し、高品質な出力を提供できるのが特徴です。さらに、このモデルは視覚マーカーの最大数の一貫性に重点を置くように設計されており、さまざまなシナリオでの視覚表現のバランスを確保できるため、シナリオ間での機能の移行がサポートされます。

主な特徴:

最大 2304*2304 ピクセルまでのさまざまな入力解像度をサポートします。
anyres_max_9 モードでは、単一のイメージ入力を最大 729*(9+1) トークンで表すことができます。
複数の画像およびビデオ入力をサポートします。マルチイメージ入力はイメージあたり 729 トークンで表され、ビデオ入力はフレームあたり 196 トークンで表されます。注: このチュートリアルを開始するには、1 枚のカード A6000 が必要です。

実行メソッド

1. 克隆并启动容器，待容器状态为「运行中」。由于模型较大，加载模型需要等待约 1 分钟，拷贝 API 地址到浏览器中打开即可

2. 可以看到如下界面

3. 点击下方上传单个/多个图片、文件或视频，并输入文本提示

4. 回车，生成回答

話し合ってコミュニケーションする

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

LLaVA-OneVision マルチモーダル全天ビジョンモデル デモ

ワンクリックで LLaVA-OneVision を導入

チュートリアルの紹介

実行メソッド

話し合ってコミュニケーションする

LLaVA-OneVision マルチモーダル全天ビジョンモデルデモ