HyperAI초신경

Llama 3.1 405B 모델 OpenAI 호환 API 서비스의 원클릭 배포

튜토리얼 및 모델 소개

이 튜토리얼은 텍스트 튜토리얼과 비디오 튜토리얼을 포함하여 OpenAI 호환 API 서비스를 사용하여 Llama-3.1-405B-Instruct-AWQ-INT4 모델을 배포하는 방법입니다.

* 비디오 튜토리얼:[OpenBayes 공식 튜토리얼] Mistral-Large 및 Llama-3.1-405B 초대형 모델의 빠른 배포

이 모델은 Llama 3.1 시리즈의 대규모 언어 모델을 405B 매개변수 크기 명령어로 조정한 버전이며, AWQ 양자화 기술을 사용하여 모델의 가중치를 INT4 정밀도로 양자화합니다. 이를 통해 모델 크기를 줄이고 성능을 유지하면서 추론 속도를 향상시킬 수 있습니다. 현재 사용 가능한 가장 큰 오픈 소스 모델 중 하나로, 다국어 입출력을 지원하고 모델의 다양성과 적용성을 높이는 동시에 더 복잡한 작업과 대화를 처리할 수 있는 더 긴 컨텍스트 창을 도입했습니다.

"OpenAI 호환 API"는 OpenAI가 정한 인터페이스 표준 및 사양을 따르는 애플리케이션 프로그래밍 인터페이스(API)를 말하며, 개발자가 이러한 API를 사용하여 대규모 언어 모델(예: OpenAI의 GPT 시리즈 모델)과 상호 작용할 수 있도록 합니다. 이러한 호환성은 타사 개발자가 OpenAI와 동일한 요청 및 응답 형식을 사용하여 유사한 기능을 자체 애플리케이션에 통합할 수 있음을 의미합니다. 예를 들어, 개발자가 OpenAI의 API를 사용하여 챗봇을 만든 경우 코드를 크게 변경하지 않고도 OpenAI 호환 API 표준을 따르는 다른 서비스로 쉽게 전환할 수 있습니다.

OpenAI 호환 API의 주요 기능은 다음과 같습니다.

  • 표준화된 요청: API 요청은 필수 매개변수와 구조를 포함하여 OpenAI의 형식을 따릅니다.
  • 표준화된 응답: API 응답도 OpenAI 형식을 따르므로 처리 및 구문 분석 결과가 일관되고 예측 가능합니다.
  • 기능적 일관성: 텍스트 생성, 번역, 요약 등 OpenAI와 유사한 기능을 제공합니다.
  • 통합이 쉽습니다. 개발자는 익숙한 인터페이스와 패턴을 활용하여 이러한 API를 기존 시스템에 쉽게 통합할 수 있습니다.

텍스트 튜토리얼

1. 튜토리얼 인터페이스의 오른쪽 상단 모서리에서 컨테이너를 복제하고 시작합니다.

OpenAI 호환 API는 추가 개입 없이 배포가 성공적으로 완료되면 모든 서비스를 자동으로 시작합니다.

2. API 주소를 새 페이지에 복사하여 엽니다.

기본 404 메시지가 표시되는 것을 볼 수 있습니다.

3. API 주소 뒤에 '/v1/models'라는 추가 매개변수를 추가합니다.

모델의 배포 정보가 표시되는 것을 볼 수 있습니다.

4. 이제 OpenAI 호환 SDK에서 모델에 연결할 수 있습니다. 여기서는 OpenWebUI를 예로 들어 로컬 OpenWebUI를 사용하여 이 API를 통합합니다.

OpenWebUI 서비스를 로컬에서 시작하고, "외부 연결"에서 추가 연결을 시작하고, "OpenAPI"에 API를 입력하고 ➕ '/v1'을 클릭합니다. 여기에는 "API 키"가 설정되어 있지 않으므로 사용자 정의로 입력하면 됩니다. 오른쪽 하단에 있는 '저장'을 클릭하세요.

5. 배포 완료

OpenWebUI 인터페이스에 이미 Llama-3.1-405b 모델이 있는 것을 볼 수 있습니다. 아래에 간단히 메시지를 입력하여 대형 모델과 소통할 수 있습니다.