HyperAI초신경
Back to Headlines

바이두, ERNIE 4.5 시리즈 오픈소스 공개: 0.3B부터 424B 파라미터까지 다양한 모델 지원

15일 전

바이두, ERNIE 4.5 시리즈 오픈 소스화: 0.3B에서 424B 파라미터까지 확장 바이두는 최신 ERNIE 4.5 시리즈를 공식적으로 오픈 소스화했습니다. 이 시리즈는 강력한 기반 모델 가족으로, 언어 이해, 추론, 생성을 향상시키는 데 설계되었습니다. 이번 출시에는 0.3B 밀집 모델부터 424B 파라미터를 가진 대형 Mixture-of-Experts (MoE) 아키텍처까지 10가지 모델 변형이 포함되어 있습니다. 이 모델들은 Hugging Face를 통해 전 세계 연구자와 개발자 커뮤니티에게 무료로 제공되며, 최첨단 중국어 및 다국어 언어 기술에 대한 개방적인 실험과 접근성을 가능하게 합니다. ERNIE 4.5 아키텍처의 기술적 개요 ERNIE 4.5 시리즈는 바이두의 이전 ERNIE 모델 세대를 기반으로 하며, 고급 모델 아키텍처를 도입했습니다. 이는 밀집 모델과 희소 활성화 MoE 디자인을 모두 포함합니다. 특히 MoE 변형은 파라미터 수를 효율적으로 확장하는 데 주목할 만합니다. 예를 들어, ERNIE 4.5-MoE-3B와 ERNIE 4.5-MoE-47B 변형은 각 입력 토큰당 64개의 전문가 중 2개만 활성화하여, 총 파라미터 수를 유지하면서도 활성 파라미터 수를 관리 가능하게 합니다. ERNIE 4.5 모델들은 감독 학습 미세 조정(SFT), 인간 피드백을 활용한 강화 학습(RLHF), 그리고 대조적 정렬 기법을 사용하여 훈련되었습니다. 훈련 코퍼스는 중국어와 영어의 다양한 분야에서 5.6조 개의 토큰을 포괄하며, 바이두의 독점적인 다단계 사전 훈련 파이프라인이 사용되었습니다. 그 결과, 이 모델들은 지시사항 준수, 다단계 대화, 장문 생성, 그리고 추론 벤치마크에서 높은 성능을 보여주었습니다. 모델 변형 및 오픈 소스 출시 ERNIE 4.5 출시에는 다음과 같은 10가지 변형이 포함되어 있습니다: MoE-47B 변형: 추론 시 3B 파라미터만 활성화되지만 총 47B 파라미터를 가지고 있습니다. 424B 모델: 바이두가 지금까지 출시한 가장 큰 모델로, 희소 활성화 전략을 사용하여 추론의 가능성을 보장하고 확장성을 제공합니다. 이러한 모델들은 FP16과 INT8 양자화를 지원하여 효율적인 배포가 가능합니다. 성능 벤치마크 ERNIE 4.5 모델들은 여러 중요한 중국어 및 다국어 NLP 과제에서 상당한 개선을 보여주고 있습니다. 공식 기술 보고서에 따르면: 지시사항 준수 과제: 모델들은 대조적 미세 조정의 이점을 받아, 이전 ERNIE 버전보다 사용자의 의도에 더 잘 맞추고 환각률을 줄이는 데 성공했습니다. 적용 및 배포 ERNIE 4.5 모델들은 다양한 응용 분야에 최적화되었습니다: 장문 문서 또는 세션에서의 메모리와 추론 요구: 일부 변형은 최대 128K 길이의 문맥을 지원하여, 장문 문서나 세션에서의 메모리와 추론 작업에 사용될 수 있습니다. 결론 ERNIE 4.5 시리즈는 오픈 소스 AI 개발의 중요한 발전을 나타냅니다. 이 시리즈는 확장 가능하고, 다국어 및 지시사항 준수 과제에 맞춘 다양한 모델을 제공하여, 포괄적이고 투명한 AI 연구를 위한 바이두의 의지를 보여줍니다. 전면적인 문서와 Hugging Face에서의 개방적인 접근성, 그리고 효율적인 배포 지원 덕분에 ERNIE 4.5는 전 세계 자연어 처리 및 생성 기술의 발전을 가속화할 것으로 기대됩니다. 업계 전문가들은 ERNIE 4.5 시리즈의 출시를 긍정적으로 평가하고 있습니다. 이 모델들은 다양한 크기와 아키텍처로 제공되어, 연구자와 개발자들이 자신들의 요구에 따라 적합한 모델을 선택할 수 있도록 돕습니다. 또한, 바이두의 이러한 결정은 AI 연구의 포용성과 투명성을 강화하는 방향으로 나아가는 중요한 단계로 여겨지고 있습니다.

Related Links