HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-OneVision:視覚タスクの簡単な転移

Bo Li Yuanhan Zhang Dong Guo Renrui Zhang Feng Li Hao Zhang Kaichen Zhang Yanwei Li Ziwei Liu Chunyuan Li

概要

LLaVA-OneVisionは、LLaVA-NeXTブログシリーズにおいて蓄積したデータ、モデル、視覚表現に関する知見を統合して開発された、オープンな大規模多モーダルモデル(LMM)のファミリです。実験結果から、LLaVA-OneVisionは、単一画像、複数画像、動画の3つの重要なコンピュータビジョンシナリオにおいて、オープンなLMMの性能限界を同時に達成する初めての単一モデルであることが示されています。特に、LLaVA-OneVisionの設計により、異なるモダリティやシナリオ間での強力な転移学習が可能となり、新たなEmergent Capability(出現的機能)が得られています。具体的には、画像から動画へのタスク転移によって、強力な動画理解能力およびシナリオ間の汎用性が実証されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています