Back to Headlines

🤗 Hugging Face, 30억 파라미터의 다국어 장문 처리 모델 SmolLM3 출시

2달 전

Hugging Face가 최근 'SmolLM3'라는 새로운 언어 모델을 출시했습니다. 'Smol' 시리즈의 최신 버전인 SmolLM3는 30억 개의 매개변수로, 장문 컨텍스트와 다국어 추론을 효과적으로 수행하도록 설계되었습니다. 일반적으로 고컨텍스트 처리 능력을 가진 모델들은 70억 개 이상의 매개변수를 필요로 하지만, SmolLM3는 이보다 훨씬 적은 매개변수로도 최상의 성능을 제공합니다. 이는 비용 효율성을 높이고 제한된 하드웨어에서도 쉽게 배포할 수 있다는 장점이 있습니다. SmolLM3 개요 SmolLM3는 단 30억 개의 매개변수로 128,000 토큰까지 처리할 수 있는 장문 컨텍스트와 다국어 추론을 지원하는 혁신적인 모델입니다. 이 모델은 11조 개의 토큰으로 훈련되었으며, Mistral, LLaMA 2, Falcon과 같은 모델들과 경쟁력을 가지는 성능을 보여줍니다. SmolLM3는 크기에도 불구하고 툴 사용, 소량 샘플 추론 등의 능력이 뛰어나며, 이는 일반적으로 두세배 크기의 모델에서만 볼 수 있는 특성입니다. SmolLM3의 주요 기능 장문 컨텍스트 추론 (최대 128,000 토큰) SmolLM3는 수정된 어텐션 메커니즘을 사용하여 매우 긴 컨텍스트(최대 128,000 토큰)를 효율적으로 처리할 수 있습니다. 이 기능은 연장된 문서, 로그, 또는 구조화된 기록을 처리하는 작업에서 특히 중요하며, 컨텍스트 길이가 이해도와 정확도에 직접적인 영향을 미칩니다. 이중 모드 추론 SmolLM3-3B는 지시 조정된 변형으로, 이중 모드 추론을 지원합니다. 이 모델은 개방형 생성과 구조화된 추론을 모두 잘 수행하여, RAG 파이프라인부터 에이전트 워크플로까지 다양한 응용 분야에 적합합니다. 다국어 지원 SmolLM3는 영어, 프랑스어, 스페인어, 독일어, 이탈리아어, 포르투갈어 등 6개 언어를 지원합니다. XQuAD와 MGSM와 같은 다국어 벤치마크에서 우수한 성능을 보여주며, 언어 간 성능 저하가 최소화되어 있습니다. 매개변수 수가 적지만 최상의 성능 30억 개의 매개변수로 구성된 SmolLM3는 Mistral-7B와 같은 더 큰 모델들에서 볼 수 있는 성능에 근접하거나 비견되는 결과를 내놓습니다. 이는 11조 개의 토큰으로 구성된 고품질 훈련 데이터와 신경망 아키텍처의 세심한 조정 덕분입니다. 툴 사용과 구조화된 출력 SmolLM3는 툴 호출 작업에서 뛰어난 성능을 보입니다. 프롬프트 기반 워크플로와 구조화된 출력 모두를 지원하며, 스키마 기반 입력-출력 제약을 정확히 따르고, 자율 에이전트나 API 주도 환경과 같은 결정적 행동이 필요한 시스템과 원활하게 인터페이스합니다. 기술적인 훈련 세부사항 SmolLM3는 Hugging Face가 큐레이팅한 내부 혼합 데이터로 훈련되었습니다. 이 데이터는 고품질 웹 콘텐츠, 코드, 학술 논문, 그리고 다국어 자료를 포함하고 있습니다. 11조 개의 토큰으로 이루어진 훈련은 GPU 클러스터에서 다노드 분산 훈련 전략을 사용하여 수행되었으며, 긴 시퀀스 훈련을 효율적으로 수행하기 위한 Flash Attention v2 같은 최적화 기법이 적용되었습니다. 토크나이저는 모든 지원 언어에서 공유되는 128,000 토큰의 SentencePiece 모델입니다. 장문 컨텍스트 처리를 위해 Hugging Face는 선형 및 그룹화된 어텐션 메커니즘을 사용하여 제곱 복잡도를 최소화하면서 성능을 유지할 수 있었습니다. 이로 인해 모델은 훈련과 추론 과정에서 최대 128,000 토큰까지 처리할 수 있으며, 이러한 규모에서는 메모리 병목 현상을 겪지 않습니다. SmolLM3-3B 지시 조정 변형은 Hugging Face의 trlx 라이브러리를 사용하여 챗 지시, 추론 작업, 그리고 툴 사용 시연과 일치하도록 추가 훈련을 받았습니다. 성능 벤치마크 SmolLM3는 여러 다국어 및 추론 벤치마크에서 강한 성능을 보여줍니다. 최신 7B와 13B 모델들보다는 모든 벤치마크에서 최상의 성능을 내지 못하지만, 매개변수 대비 성능 비율은 해당 클래스에서 가장 높은 편입니다. 응용 분야와 사용 사례 SmolLM3는 다음과 같은 응용 분야에 특히 적합합니다: - RAG 파이프라인: 장문 컨텍스트와 다국어 지원으로 인해, 정보 검색과 생성을 결합하는 RAG 파이프라인에 이상적입니다. - 에이전트 워크플로: 툴 사용과 결정적 행동 요구사항을 충족시키는 능력으로, 자율 에이전트 워크플로에 유용합니다. - 챗봇 및 대화 시스템: 이중 모드 추론과 다국어 지원으로, 다양한 언어와 상황에서 사용자와의 자연스러운 대화를 가능하게 합니다. 결론적으로, SmolLM3는 크기는 작지만 다국어 지원, 장문 컨텍스트 처리, 강력한 추론 능력을 갖춘 새로운 세대의 언어 모델을 대표합니다. 이 모델의 효율성과 접근성은 Hugging Face가 적절한 훈련 방법과 아키텍처 설계를 통해 작은 모델이라도 복잡한 작업에서 뛰어난 성능을 낼 수 있다는 것을 입증합니다. Hugging Face에서 공개한 SmolLM3 Base와 SmolLM3 Instruct 모델을 확인해보세요. 이 연구의 모든 공로는 해당 프로젝트의 연구진에게 돌아갑니다. 또한 Twitter와 YouTube를 팔로우하고, 100,000명 이상의 ML SubReddit에 가입하며, 뉴스레터를 구독해주세요.

Related Links

🤗 Hugging Face, 30억 파라미터의 다국어 장문 처리 모델 SmolLM3 출시 | 헤드라인 | HyperAI초신경