HyperAI초신경
Back to Headlines

애플, 2025 AI 모델 보고서 발표…폰매그의 마지막 작품?= Ruoming Pang이 이끄는 애플 팀의 최신 AI 모델 전략 소개

2일 전

애플이 최근 《Apple Intelligence Foundation Language Models Tech Report 2025》 기술 보고서를 발표하면서, 그 동안 비밀에 부쳐졌던 AI 기반 모델 기술의 전모가 드러났다. 이는 지난해 애플이 처음으로 AI 기반 모델의 자세한 기술을 공개한 이후의 중요한 업데이트다. 더욱이, 애플의 기반 모델 팀을 이끌었던 Ruoming Pang(滂若鳴)이 메타로부터 수천만 달러의 급여로 영입되면서, 이번 보고서는 그가 애플에서의 마지막 주요 성과일 가능성이 크다. Pang 본인은 소셜 미디어를 통해 이 보고서를 소개하고, 팀의 중책을 Zhifeng Chen에게 넘기는 것을 공식화했다. 보고서는 애플이 채택한 두 가지 트랙으로 진행되는 모델 전략을 자세히 설명한다. 첫번째는 약 30억 개의 파라미터를 가진 디바이스 기반 모델로, iPhone, iPad, Mac 등의 애플 기기에서 효율적으로 실행하도록 설계되었다. 이 모델은 애플의 자체 제작 칩 성능을 최대한 활용하기 위해 깊게 최적화되었다. 두번째는 애플의 사설 클라우드 컴퓨팅 환경에서 실행되는 확장 가능한 서버 모델로, 복잡한 사용자 요청을 처리하는 데 사용된다. 이러한 "디바이스-클라우드 협동" 아키텍처는 성능, 효율성, 그리고 프라이버시 사이의 균형을 맞추기 위해 설계되었으며, 간단한 작업은 로컬 디바이스에서 처리되고, 복잡한 작업은 클라우드 서버에서 수행된다. 디바이스 기반 모델의 효율성을 높이기 위해 애플의 엔지니어들은 "키-밸류 캐시 공유"(KV Cache Sharing)라는 혁신적인 아키텍처를 도입했다. 구체적으로, 모델을 두 개의 블록으로 나누어 하나의 블록(모델 레이어의 37.5%)이 다른 블록(62.5%)이 생성한 키-밸류 캐시를 직접 공유하게 하여 필요한 메모리를 37.5% 줄이고, 첫 번째 토큰 생성 시간을 크게 단축시켰다. 서버 기반 모델에 대해서는 "병렬 트랙 혼합 전문가"(Parallel-Track Mixture-of-Experts, PT-MoE)라는 새로운 Transformer 아키텍처를 개발했다. 이 아키텍처는 대형 모델을 여러 개의 더 작은 '트랙'으로 분해하여 각 트랙이 독립적으로 정보를 처리하고 특정 노드에서만 동기화한다. 이를 통해 전통적인 대형 모델에서 발생하는 통신 병목 현상을 크게 줄이고, 학습 및 추론의 효율성을 높였다. 또한, 각 트랙 내부에 혼합 전문가(MoE) 레이어를 배치하여 저지연으로 복잡한 작업을 처리할 수 있으며, 모델 품질을 희생하지 않는 확장성을 제공한다. 이 보고서는 또한 모델의 다중 모달 이해 능력, 특히 이미지 인식 능력을 향상시키는 시각 인코더의 기술 세부사항을 공개했다. 서버와 디바이스 모델은 각각 ViT-g와 더 효율적인 ViTDet-L을 시각 주간 네트워크로 사용한다. 특히, 디바이스 모델은 "레지스터-윈도우"(Register-Window) 메커니즘을 도입하여 이미지의 전반적인 맥락 정보와 국소적인 세부 정보를 동시에 효과적으로 포착할 수 있도록 설계되었다. 학습 데이터 측면에서는, 애플은 일관된 프라이버시 보호 원칙을 강조하며, 데이터 출처와 프라이버시 원칙을 명확히 밝혔다. 학습 데이터는 주로 세 가지 방향에서 수집된다: 출판사로부터의 라이선스 데이터, 애플 웹 크롤러 Applebot이 수집한 공개 웹 정보, 그리고 고품질의 합성 데이터. 애플은 학습 과정에서 사용자의 개인 데이터나 사용자 상호 작용 정보를 절대 사용하지 않음을 특별히 강조했으며, robots.txt 프로토콜을 준수하여 웹사이트 운영자가 자신의 콘텐츠가 모델 학습에 사용되지 않도록 선택할 수 있도록 했다. 이를 통해 콘텐츠 소유자와 사용자의 권리를 보호한다는 원칙을 지키고 있다. 애플은 100억 개 이상의 고품질 이미지-텍스트 쌍과 50억 개의 합성 이미지 캡션 데이터를 처리하였으며, 고급 파이프라인을 활용하여 필터링과 정제를 수행하여 학습 데이터의 품질을 보장했다. 실제 디바이스에서 이 모델들이 효율적으로 작동할 수 있도록 애플은 적극적인 최적화 전략을 채택했다. 디바이스 모델은 '양자화 인지 학습'(Quantization-Aware Training, QAT) 기술을 통해 각 가중치를 2비트로 압축했으며, 서버 모델은 '적응형 스케일 가능한 텍스처 압축'(Adaptive Scalable Texture Compression, ASTC) 기술을 활용하여 애플 GPU의 기존 하드웨어 디코딩 모듈을 이용해 가중치를 거의 무비용으로 해제할 수 있게 했다. 최종적으로, 서버 모델은 각 가중치를 약 3.56비트로 압축되었다. 압축 과정에서 발생할 수 있는 성능 손실은 '저순위 조정'(Low-Rank Adaptation, LoRA)을 통해 보완되었다. 성능 평가 결과, MMLU 등 표준 테스트에서 애플의 디바이스 모델은 Qwen-2.5-3B, Gemma-3-4B 등 동일 규모의 오픈 소스 모델보다 우수하거나 비슷한 성능을 보였다. 서버 모델은 LLaMA 4 Scout와 비교해 뛰어난 성능을 보였지만, Qwen-3-235B, GPT-4o 등 더 큰 규모의 모델과는 여전히 차이가 있었다. 그러나 인간 평가자와의 대비 평가에서, 애플의 모델은 여러 언어 영역과 작업에서 좋은 성능을 보였다. 마지막으로, 애플은 개발자를 위해 새로운 '기반 모델 프레임워크'(Foundation Models framework)를 론칭했다. 이 프레임워크는 개발자가 디바이스 상의 30억 파라미터 모델을 직접 호출할 수 있도록 설계되었으며, Swift 언어와 깊게 통합되어 '가이드드 제너레이션' 기능을 제공한다. 이를 통해 개발자는 몇 줄의 코드로 모델이 구조화된 Swift 데이터 유형을 직접 생성할 수 있어, 애플리케이션에 AI 기능을 통합하는 과정을 크게 단순화시킬 수 있다. 애플은 이 프레임워크가 책임감 있는 AI 원칙에 따라 설계되었으며, 여러 안전 장치를 내장하여 개발자가 프라이버시를 고려한 지능형 애플리케이션을 구축할 수 있도록 돕는다는 점을 강조했다. 산업 전문가들에 따르면, 애플의 이번 기술 보고서는 회사의 AI 기술 개발 방향을 명확히 보여주며, 특히 프라이버시 보호와 효율성 간의 균형을 맞추는 데 성공한 것으로 평가된다. 애플은 앞으로도 사용자의 데이터를 최대한 보호하면서 AI 기술을 발전시키기 위한 노력에 집중할 것으로 예상된다. 또한, Pang의 이직은 애플의 AI 연구팀에 일정한 변화를 가져올 것으로 보이나, Chen을 중심으로 한 새로운 리더십이 이러한 변화를 성공적으로 관리할 것으로 기대된다. 애플의 AI 기술은 이미 글로벌 시장에서 경쟁력을 갖추고 있으며, 앞으로 더욱 발전할 가능성이 크다.

Related Links