Llama 3.2-Vision マルチモーダル大規模言語モデル (LLM) コレクションは、2024 年に Meta によって開発された、事前トレーニングおよび命令調整された画像推論生成モデルのセットで、サイズは 11B および 90B (テキスト + 画像入力/テキスト出力) です。 。 Llama 3.2-Vision コマンド調整モデルは、視覚認識、画像推論、キャプション付け、および画像に関する一般的な質問への回答用に最適化されています。これらのモデルは、一般的な業界ベンチマークにおいて、利用可能な多くのオープンソース モデルやクローズド マルチモーダル モデルよりも優れたパフォーマンスを発揮します。 サポートされている言語: テキストのみのタスクの場合、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語が正式にサポートされています。 Llama 3.2 は、サポートされている 8 つの言語よりも幅広い言語向けにトレーニングされています。
Llama 3.2-Vision は商用および研究での使用を目的としています。命令調整されたモデルは視覚認識、画像推論、キャプション、およびアシスタントのような画像チャットに使用され、事前トレーニングされたモデルはさまざまな画像推論タスクに適応できます。さらに、Llama 3.2-Vision は画像とテキストを入力として受け取ることができるため、次のような他の使用例が考えられます。
1. 启动容器后点击 API 地址即可进入 Web 界面
2. 进入网页后,即可与模型展开图像对话!
虽然官方语言中并没有中文,但仍可指定中文使模型输出为中文,例如 “请使用中文回答【问题】” 、 “请使用中文描述这张图”
3. 点击提交即可看到模型输出结果