Llama-3.2-11B-Vision-Instruct: 画像チャットアシスタント

1. チュートリアルの概要

Llama 3.2-Vision マルチモーダル大規模言語モデル (LLM) コレクションは、2024 年に Meta によって開発された、事前トレーニングおよび命令調整された画像推論生成モデルのセットで、サイズは 11B および 90B (テキスト + 画像入力/テキスト出力) です。。 Llama 3.2-Vision コマンド調整モデルは、視覚認識、画像推論、キャプション付け、および画像に関する一般的な質問への回答用に最適化されています。これらのモデルは、一般的な業界ベンチマークにおいて、利用可能な多くのオープンソースモデルやクローズドマルチモーダルモデルよりも優れたパフォーマンスを発揮します。サポートされている言語: テキストのみのタスクの場合、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語が正式にサポートされています。 Llama 3.2 は、サポートされている 8 つの言語よりも幅広い言語向けにトレーニングされています。

Llama 3.2-Vision は商用および研究での使用を目的としています。命令調整されたモデルは視覚認識、画像推論、キャプション、およびアシスタントのような画像チャットに使用され、事前トレーニングされたモデルはさまざまな画像推論タスクに適応できます。さらに、Llama 3.2-Vision は画像とテキストを入力として受け取ることができるため、次のような他の使用例が考えられます。

Visual Question Answering (VQA) と Visual Reasoning: 画像を見て、その画像に関する質問を理解する機械を想像してください。
Document Visual Question Answering (DocVQA): コンピューターが地図や契約書などの文書のテキストとレイアウトを理解し、画像から直接文書に関する質問に答えることができると想像してください。
画像キャプション: 画像キャプションは視覚と言葉の間のギャップを埋め、詳細を抽出し、シーンを理解し、ストーリーを伝えるために 1 ～ 2 文を書きます。
画像テキストの取得: 画像テキストの取得は、画像とその説明の間の仲介者のようなものです。検索エンジンに似ていますが、画像とテキストの両方を理解します。
ビジュアルの基本: ビジュアルの基本は、私たちが見ているものと私たちが言うことを結び付けるようなものです。これは、言語が画像の特定の部分をどのように参照するかを理解し、AI モデルが自然言語の記述に基づいてオブジェクトや領域を正確に特定できるようにすることを目的としています。

2. 操作手順

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可与模型展开图像对话！
虽然官方语言中并没有中文，但仍可指定中文使模型输出为中文，例如 “请使用中文回答【问题】” 、 “请使用中文描述这张图”

3. 点击提交即可看到模型输出结果

Llama-3.2-11B のワンクリック展開

Llama-3.2-11B-Vision-Instruct: 画像チャット アシスタント

1. チュートリアルの概要

2. 操作手順

Llama-3.2-11B-Vision-Instruct: 画像チャットアシスタント