HyperAI초신경

Llama-3.2-11B의 원클릭 배포

라마-3.2-11B-비전-인스트럭트: 이미지 채팅 도우미

1. 튜토리얼 소개

Llama 3.2-Vision 멀티모달 대규모 언어 모델(LLM) 컬렉션은 Meta가 2024년에 개발한 사전 학습되고 명령어 조정된 이미지 추론 생성 모델 세트로, 크기는 11B와 90B(텍스트+이미지 입력/텍스트 출력)입니다. Llama 3.2-Vision 교육 조정 모델은 시각적 인식, 이미지 추론, 캡션 작성 및 이미지에 대한 일반적인 질문에 답하는 데 최적화되어 있습니다. 이러한 모델은 일반적인 산업 벤치마크에서 사용 가능한 많은 오픈 소스 및 폐쇄형 멀티모달 모델보다 우수한 성능을 보입니다. 지원 언어: 텍스트 전용 작업의 경우 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어가 공식적으로 지원됩니다. Llama 3.2는 지원되는 8개 언어뿐 아니라 더 다양한 언어로 훈련되었습니다.

Llama 3.2-Vision은 상업적, 연구적 용도로 만들어졌습니다. 지침은 시각적 인식, 이미지 추론, 캡션 및 도우미와 같은 이미지 채팅을 위해 모델을 조정하는 반면, 사전 훈련된 모델은 다양한 이미지 추론 작업에 맞게 조정될 수 있습니다. 또한 Llama 3.2-Vision은 이미지와 텍스트를 입력으로 사용할 수 있으므로 다음과 같은 다른 사용 사례도 가능합니다.

  • 시각적 질의응답(VQA) 및 시각적 추론: 이미지를 보고 해당 이미지에 대한 질문을 이해할 수 있는 기계를 상상해보세요.
  • 문서 시각적 질의응답(DocVQA): 컴퓨터가 문서(예: 지도나 계약서)의 텍스트와 레이아웃을 이해하고, 이미지를 통해 해당 문서에 대한 질문에 직접 답할 수 있다고 상상해 보세요.
  • 이미지 캡션: 이미지 캡션은 시각과 언어 사이의 격차를 메우고, 세부 사항을 추출하고, 장면을 이해한 다음, 스토리를 전달하는 한두 문장을 쓰는 것입니다.
  • 이미지-텍스트 검색: 이미지-텍스트 검색은 이미지와 그 설명을 연결해주는 중개자와 같습니다. 검색 엔진과 비슷하지만 텍스트뿐만 아니라 이미지도 이해합니다.
  • 시각적 기반: 시각적 기반은 우리가 보는 것과 말하는 것을 연결하는 것과 같습니다. 이는 언어가 이미지의 특정 부분을 어떻게 지칭하는지 이해하고, AI 모델이 자연어 설명을 기반으로 객체나 영역을 정확하게 찾을 수 있도록 하는 것입니다.

2. 작업 단계

1. 启动容器后点击 API 地址即可进入 Web 界面
2. 进入网页后,即可与模型展开图像对话!
虽然官方语言中并没有中文,但仍可指定中文使模型输出为中文,例如 “请使用中文回答【问题】” 、 “请使用中文描述这张图”
3. 点击提交即可看到模型输出结果