HyperAI초신경
Back to Headlines

마이크로소프트, 장문 추론 능력 높인 신규 AI 모델 출시

4일 전

마이크로소프트는 Phi-4 모델 시리즈의 최신 버전인 Phi-4-mini-Flash-Reasoning을 출시했습니다. 이 3.8억 매개변수를 가진 경량화된 언어 모델은 긴 문맥 추론 능력을 뛰어나게 발휘하면서도 높은 추론 효율성을 유지하도록 설계되었습니다. Hugging Face를 통해 공개된 이 모델은 수학 문제 해결과 다단계 질문 응답 등의 밀집형 추론 작업에 특화되어 있으며, 기존 모델 대비 긴 생성 작업에서 최대 10배 빠른 성능을 보여줍니다. Phi-4-mini-Flash-Reasoning의 핵심은 SambaY 아키텍처입니다. 이 새로운 디코더-하이브리드-디코더 모델은 SSM(State Space Models)과 어텐션 레이어를 경량화된 메커니즘인 Gated Memory Unit(GMU)을 사용해 통합합니다. 이를 통해 층 간에 효율적인 메모리 공유가 가능하며, 긴 문맥과 긴 생성 상황에서 추론 지연 시간을 크게 줄일 수 있습니다. Transformer 기반 아키텍처와 달리 SambaY는 자기 디코더에서 Samba(하이브리드 SSM 아키텍처)를 활용하고, 교차 디코더의 약 절반의 교차-어텐션 레이어를 GMU로 대체합니다. GMU는 마지막 SSM 층에서 재사용되는 숨겨진 상태를 통해 요소별 게이팅 함수 역할을 하며, 불필요한 계산을 피합니다. 결과적으로 선형 시간 프리필(pre-fill) 복잡성과 낮은 디코딩 I/O를 통해 추론 속도가 크게 향상됩니다. Phi-4-mini-Flash-Reasoning 모델은 5조 토큰으로 구성된 고급 합성 데이터와 필터링된 실제 데이터로 사전 훈련되었습니다. 이후에는 추론 중심 지시어 데이터셋을 사용하여 다단계 감독 학습(SFT, Supervised Fine-Tuning)과 직접 선호도 최적화(DPO, Direct Preference Optimization)를 거칩니다. 특히, Phi-4-mini-Reasoning과 달리 강화 학습(RLHF) 과정이 완전히 배제되었습니다. 그럼에도 불구하고, Phi-4-mini-Flash-Reasoning은 복잡한 추론 작업에서 뛰어난 성능을 보입니다. Math500 벤치마크에서 92.45%의 pass@1 정확도를 기록하며, Phi-4-mini-Reasoning(91.2%)과 다른 오픈 모델인 Qwen-1.5억, Bespoke-Stratos-7억 매개변수 모델을 능가합니다. AIME24/25 벤치마크에서도 52% 이상의 정확도를 보여주는 등 강한 성능 향상을 보였습니다. 이 성능 향상은 긴 생각 체인(CoT, Chain-of-Thought) 생성 능력에 기인합니다. 64K 문맥 길이 지원과 vLLM 프레임워크를 통한 최적화된 추론으로, 이 모델은 수천 개의 토큰을 포함하는 문맥을 생성하고 추론할 수 있습니다. 2K 토큰 프롬프트와 32K 토큰 생성을 포함한 지연 시간 벤치마크에서 이 모델은 기존 모델보다 최대 10배 높은 처리량을 제공합니다. 이 모델은 경량화된 아키텍처 덕분에 Phonebook과 RULER 같은 긴 문맥 벤치마크에서도 경쟁력 있는 성능을 보입니다. 슬라이딩 윈도우 어텐션(SWA) 크기가 256일 때에도 높은 검색 정확도를 유지함으로써, SSM과 GMU 기반 메모리 공유를 통해 장거리 토큰 의존성이 잘 포착됨을 입증했습니다. 구조적 혁신 덕분에 이 모델은 각 토큰당 O(N·d) 시간을 필요로 하는 어텐션 연산을 O(d)로 줄이는 데 성공했습니다. 여기서 N은 시퀀스 길이, d는 숨겨진 차원을 나타냅니다. 이는 멀티 턴 또는 문서 수준의 시나리오에서도 실시간 추론 능력을 확보할 수 있음을 의미합니다. 마이크로소프트는 Hugging Face를 통해 모델 가중치와 설정을 오픈 소스로 제공하여 커뮤니티가 완벽하게 접근할 수 있도록 했습니다. 이 모델은 64K 문맥 길이를 지원하며, 표준 Hugging Face 및 vLLM 런타임에서 작동하며, A100 GPU에서 빠른 토큰 처리량을 위해 최적화되었습니다. Phi-4-mini-Flash-Reasoning의 잠재적인 사용 사례는 다음과 같습니다: - 실시간 대화 시스템: 장기적인 대화를 효과적으로 처리할 수 있어 챗봇이나 고객 서비스에 적합합니다. - 문서 분석: 긴 문서를 신속하게 분석하고 요약할 수 있어 기업 문서 처리에 유용합니다. - 교육 도구: 복잡한 수학 문제를 해결하거나 다양한 주제에 대한 깊은 이해를 제공할 수 있어 교육 플랫폼에 활용될 수 있습니다. Phi-4-mini-Flash-Reasoning은 구조적 혁신, 특히 SSM과 효율적인 게이팅을 활용한 하이브리드 모델이 큰 성능 향상을 가져올 수 있음을 보여줍니다. 이는 실시간 디바이스 추론 에이전트와 상업적 LLM의 확장 가능한 오픈 소스 대안을 위한 새로운 방향을 제시합니다. 산업 전문가들은 이 모델이 효율적인 긴 문맥 처리 능력과 뛰어난 추론 성능을 결합함으로써, 자원 제약이 있는 환경에서도 고도의 복잡성을 요구하는 작업을 수행할 수 있는 강력한 후보임을 평가했습니다. 마이크로소프트는 이러한 혁신을 통해 인공지능 연구와 적용 분야에 큰 진전을 이룰 것으로 기대됩니다. 관련 연구와 코드, 모델에 대한 자세한 정보는 Hugging Face에서 확인할 수 있으며, 기술 세부 사항도 함께 제공됩니다. 이 연구의 모든 공로는 해당 프로젝트의 연구자들에게 돌아갑니다. 또한, 트위터, 유튜브, 스포티파이를 통해 우리를 팔로우하시고, 10만 명 이상의 ML 서브레딧에 가입하거나 뉴스레터 구독을 권장합니다.

Related Links