Bereitstellung Von Llama-3.2-11B Mit Einem Klick
Llama-3.2-11B-Vision-Instruct: Bild-Chat-Assistent
1. Einführung in das Tutorial
Die multimodale Large Language Model (LLM)-Sammlung Llama 3.2-Vision ist ein Satz vortrainierter und auf Anweisungen abgestimmter generativer Modelle zur Bildschlussfolgerung, die 2024 von Meta entwickelt wurden und Größen von 11 B und 90 B (Text+Bild-Eingabe/Text-Ausgabe) aufweisen. Das auf die Anweisung abgestimmte Modell Llama 3.2-Vision ist für visuelle Erkennung, Bildbegründung, Beschriftung und die Beantwortung allgemeiner Fragen zu Bildern optimiert. Diese Modelle übertreffen viele verfügbare Open-Source- und geschlossene multimodale Modelle bei gängigen Branchen-Benchmarks. Unterstützte Sprachen: Für reine Textaufgaben werden Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thai offiziell unterstützt. Llama 3.2 wurde auf einer größeren Bandbreite an Sprachen trainiert als nur auf den 8 unterstützten.
Llama 3.2-Vision ist für den kommerziellen und Forschungszwecke vorgesehen. Anweisungen optimieren das Modell für visuelle Erkennung, Bildbegründung, Untertitelung und assistentenähnlichen Bildchat, während das vortrainierte Modell an eine Vielzahl von Bildbegründungsaufgaben angepasst werden kann. Da Llama 3.2-Vision Bilder und Text als Eingabe verarbeiten kann, sind weitere Anwendungsfälle möglich:
- Visual Question Answering (VQA) und Visual Reasoning: Stellen Sie sich eine Maschine vor, die ein Bild betrachten und die Frage verstehen kann, die Sie dazu stellen.
- Document Visual Question Answering (DocVQA): Stellen Sie sich einen Computer vor, der den Text und das Layout eines Dokuments (wie einer Karte oder eines Vertrags) verstehen und dann Fragen dazu direkt anhand des Bildes beantworten kann.
- Bildunterschriften: Bildunterschriften schließen die Lücke zwischen Sehen und Sprache, indem sie Details herausarbeiten, die Szene verstehen und dann ein oder zwei Sätze schreiben, um die Geschichte zu erzählen.
- Bild-Text-Abruf: Der Bild-Text-Abruf ist wie ein Vermittler zwischen Bildern und ihren Beschreibungen. Ähnlich einer Suchmaschine, versteht aber Bilder ebenso wie Text.
- Visuelle Grundlage: Die visuelle Grundlage ist wie das Verbinden dessen, was wir sehen, mit dem, was gesagt wird. Es geht darum zu verstehen, wie sich Sprache auf bestimmte Teile eines Bildes bezieht, sodass KI-Modelle Objekte oder Bereiche anhand natürlicher Sprachbeschreibungen präzise lokalisieren können.
2. Bedienungsschritte
1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后,即可与模型展开图像对话!
虽然官方语言中并没有中文,但仍可指定中文使模型输出为中文,例如 “请使用中文回答【问题】” 、 “请使用中文描述这张图”

3. 点击提交即可看到模型输出结果