Open WebUI를 사용하여 한 번의 클릭으로 Llama 3.1 405B 모델을 배포하세요.
튜토리얼 및 모델 소개
이 튜토리얼에서는 OpenWebUI를 사용하여 한 번의 클릭으로 Llama-3.1-405B-Instruct-AWQ-INT4를 배포합니다. 관련 환경과 구성이 설정되었습니다. 추론을 경험하려면 컨테이너를 복제하고 시작하기만 하면 됩니다.
이 모델은 Llama 3.1 시리즈의 대규모 언어 모델을 405B 매개변수 크기 명령어로 조정한 버전이며, AWQ 양자화 기술을 사용하여 모델의 가중치를 INT4 정밀도로 양자화합니다. 이를 통해 모델 크기를 줄이고 성능을 유지하면서 추론 속도를 향상시킬 수 있습니다. 현재 사용 가능한 가장 큰 오픈 소스 모델 중 하나로, 다국어 입출력을 지원하고 모델의 다양성과 적용성을 높이는 동시에 더 복잡한 작업과 대화를 처리할 수 있는 더 긴 컨텍스트 창을 도입했습니다.
Llama-3.1-405B-Instruct-AWQ-INT4 모델은 128K 토큰의 컨텍스트 길이를 특징으로 하며, 이를 통해 더 길고 일관된 텍스트를 이해하고 생성할 수 있습니다. 또한, 이 모델은 사용자 지시를 따르는 성능을 개선하기 위해 명령어 튜닝을 거칩니다. 이 모델은 또한 양자화 기술, 특히 AWQ(Adaptive Weight Quantization) 양자화 방법을 사용하여 모델의 가중치를 INT4 정밀도로 양자화합니다. 이를 통해 모델 크기를 줄이고 성능을 유지하면서 추론 속도를 향상시킬 수 있습니다.
이 모델의 성능은 여러 언어를 포함하는 150개 이상의 벤치마크 데이터 세트를 통해 평가되었으며, 실제 시나리오에서 경쟁 모델과 비교하기 위해 광범위한 인간 평가가 수행되었습니다. 실험 평가 결과, Llama-3.1-405B는 GPT-4, GPT-4o, Claude 3.5 Sonnet을 포함한 다양한 작업에서 주요 기반 모델과 비슷한 성능을 보이는 것으로 나타났습니다. 또한, 이 모델은 데이터 서버, 엣지 장치, PC를 포함한 다양한 NVIDIA 플랫폼에서 작동하도록 최적화되었습니다.
실행 단계
1. 튜토리얼 인터페이스 오른쪽 상단의 컨테이너를 복제하고 시작한 후 API 주소를 복사하여 새 페이지를 엽니다.

2. API를 열면 다음과 같은 인터페이스를 볼 수 있습니다. 대화 상자에 텍스트를 직접 입력하여 대형 모델과 통신할 수 있습니다(대형 모델로 인해 OpenWebUI 인터페이스에서 모델을 로드하는 데 약 30초가 소요됩니다. 모델은 기본적으로 선택되어 있습니다. 선택할 수 없는 경우 모델이 아직 로드되지 않았을 수 있습니다. 30초 후에 API 주소 페이지를 새로 고침하세요).
