Back to Headlines

중국 CPU 설계사인 Zhaoxin, 최신 KX-7000으로 성능 향상 시도

2달 전

중국의 CPU 설계 회사인 Zhaoxin은 가장 최근에 출시한 CPU인 KaiXian KX-7000을 통해 새로운 아키텍처 "세기대도"를 선보였습니다. "세기대도"는 상하이에 있는 주요 도로인 세기대로 이름을 지었습니다. Zhaoxin은 VIA Technologies와 상하이 시정부의 합작 투자로 이루어져 있으며, VIA의 x86-64 라이선스를 계승하고 있습니다. 또한 강력한 정부 지원을 받고 있어, x86-64 소프트웨어 생태계에서 경쟁력을 갖추는 데 유리한 위치에 있습니다. KX-7000은 세기대도 아키텍처를 기반으로 하며, 성능 향상을 목표로 설계되었습니다. 이전 모델인 KX-6640MA가 현대 애플리케이션을 처리하기에 부족했지만, KX-7000은 3.2GHz의 클럭 속도로 동작하며, 최대 3.5-3.7GHz까지 올라갈 수 있다고 Zhaoxin은 주장합니다. KX-7000은 8개의 세기대도 코어와 32MB의 공유 L3 캐시를 갖추고 있으며, AMD Ryzen 데스크톱 파트와 비슷한 칩릿 구조를 채택하고 있습니다. 프론트엔드에서는 64KB 16-way 인스트럭션 캐시가 16바이트/클럭의 데이터를 전달하며, 4-way 디코더로 연결됩니다. 그러나 프론트엔드 대역폭은 L1i 캐시에서 벗어나면 급격히 떨어집니다. 특히, L3 캐시로 이동하면 프론트엔드 대역폭은 4바이트/클럭 미만으로 줄어들어, 2010년대 서양 설계와 대조를 이룹니다. 세기대도는 4096 엔트리의 분기 타겟 버퍼(BTB)를 사용하여 분기 타겟을 제공하지만, 분기를 취할 때 두 개의 파이프라인 버블이 생성됩니다. 이는 VIA의 Nano와 같은 오래된 코어의 성능을 연상시키며, LuJiaZui보다 후퇴한 부분입니다. 반면, 분기 방향 예측기는 패턴 인식 능력이 크게 향상되어 인텔의 Sunny Cove와 유사한 성능을 보여줍니다. 백엔드에서는 세기대도가 192 엔트리의 재순서 버퍼(ROB)를 사용합니다. 이는 인텔의 Haswell, AMD의 Zen, 그리고 Centaur의 CNS와 비슷한 수준의 재순서 실행 윈도우를 제공합니다. 그러나 등록파일 크기는 Haswell이나 Zen보다 작아, 실제 성능은 제약을 받을 수 있습니다. 세기대도는 3개의 ALU 파이프라인을 통해 스칼라 정수 연산을 수행하며, 64비트 정수 곱셈의 지연 시간은 2클럭입니다. 이는 우수한 정수 곱셈 성능을 제공합니다. FP/벡터 단위는 4개의 파이프라인을 통해 128비트 벡터 정수 덧셈을 실행하며, 256비트 벡터 FMA 지령도 2개의 128비트 마이크로-오퍼레이션으로 나누어 실행됩니다. 이는 AVX2 성능을 위해 최적화되지 않은 것으로 보입니다. 메모리 접근은 2개의 주소 생성 장치(AGU)로 시작되며, 48 엔트리의 스케줄러로부터 피드됩니다. L1D 캐시는 32KB 8-way 어소시에이티브로, 128비트 포트 2개와 4클럭의 로드-투-사용 지연 시간을 가집니다. L2 캐시의 지연 시간은 15클럭으로 인상적이지 못하며, L3 캐시의 지연 시간은 80클럭 이상으로 매우 높습니다. DRAM 성능도 저조해, 200ns 이상의 지연 시간을 보입니다. 메모리 컨트롤러는 1600MT/s까지 트레이닝되었지만, 실제 읽기 대역폭은 12GB/s를 넘지 못합니다. 이는 시스템의 전체적인 성능을 저하시킵니다. SPEC CPU2017 벤치마크 결과, KX-7000은 정수 스위트에서 48.8% 증가하고, 부동소수점 스위트에서는 2배 이상의 성능 향상을 보였습니다. 그러나 고성능 서양 x86-64 칩과 비교하면, 정수 스위트에서는 AMD의 Bulldozer에 미치지 못하며, 부동소수점 스위트에서는 10.4% 앞섰습니다. 이는 Century Avenue의 추가적인 실행 리소스가 고-IPC 테스트에서 유리하다는 것을 시사합니다. 다중 스레드 작업에서는 KX-7000의 성능이 불안정합니다. libx264 소프트웨어 비디오 인코딩과 7-Zip 압축 같은 작업에서는 Bulldozer와 Core i5-6600K에 크게 밀렸지만, Y-Cruncher와 OpenSSL RSA2048 서명 작업에서는 좋은 성능을 보였습니다. 전체적으로 KX-7000은 단일 스레드 성능이 Bulldozer 수준으로, 다중 스레드 작업에서는 때때로 낮은 성능을 보입니다. 그러나 Zhaoxin은 외국 기업에 의존하지 않고 국내 사용자가 사용 가능한 경험을 제공하는 것이 목표입니다. 이러한 측면에서 보면, Bulldozer 수준의 단일 스레드 성능은 충분하며, 세기대도는 고성능 목표를 향한 중요한 발걸음입니다. 산업 관계자들은 KX-7000이 성능 면에서 여전히 서양 칩에 미치지 못하지만, 강력한 정부 지원 덕분에 지속적인 발전 가능성을 높게 평가합니다. Zhaoxin은 x86-64 라이선스를 활용해 다양한 용도에서 사용 가능한 칩을 개발하고 있으며, 이는 중국의 국내 칩 산업 발전에 중요한 역할을 하고 있습니다.

Related Links

중국 CPU 설계사인 Zhaoxin, 최신 KX-7000으로 성능 향상 시도 | 헤드라인 | HyperAI초신경