HyperAI초신경
Back to Headlines

NVIDIA GPU 공격 'GPUHammer', AI 모델 손상 위험

2일 전

토론토 대학의 연구팀이 NVIDIA 그래픽 처리 장치(GPU) 메모리의 비트를 뒤집어 AI 모델을 조용히 부패시키는 새로운 공격 방법인 GPUHammer를 발견했습니다. 이 공격은 실제 코드나 데이터 입력에 접근하지 않고도 AI 모델의 정확도를 80%에서 1% 미만으로 떨어뜨릴 수 있어 심각한 문제를 야기할 수 있습니다. 다행히 NVIDIA는 이미 이러한 위험을 완화하기 위한 기준을 제시했지만, GDDR6 메모리를 사용하는 카드를 사용 중이라면 주목할 가치가 있습니다. GPUHammer는 기존에 알려진 하드웨어 문제인 Rowhammer의 GPU 버전입니다. Rowhammer는 현대 메모리 칩들이 너무 밀접하게 배치되어 있어 한 줄을 반복해서 읽거나 쓰면 인근 줄에 전기적 간섭이 발생하여 비트를 뒤집는 현상을 지칭합니다. 뒤집힌 비트는 숫자, 명령, 또는 신경망의 가중치와 같은 어떤 것이라도 될 수 있으며, 이로 인해 문제가 발생합니다. 지금까지 이 문제는 주로 DDR4 시스템 메모리에 대한 우려였지만, GPUHammer는 GDDR6 VRAM에서도 발생할 수 있음을 입증했습니다. GDDR6 VRAM은 특히 AI와 워크스테이션 작업에서 널리 사용되는 현대 NVIDIA 카드들을 구동합니다. 연구팀은 실제 NVIDIA RTX A6000 카드에서 GPUHammer 공격을 수행했으며, 이 공격은 메모리 셀을 반복적으로 쾅쾅거리게 만들어 인근 비트를 뒤집고 저장된 내용을 훼손시키는 기술을 사용했습니다. 일부 보안 조치가 마련되어 있는 상태에서도 여러 메모리 뱅크에서 여러 비트가 뒤집히는 것을 확인할 수 있었으며, 이로 인해 훈련된 AI 모델이 완전히 무용지물이 되기도 했습니다. 공격자가 이 공격을 수행하기 위해서는 당신의 데이터에 접근할 필요가 없습니다. 클라우드 환경이나 서버에서 같은 GPU를 공유하고 있다면, 원하는 대로 작업 부하에 간섭할 수 있습니다. 이 공격은 RTX A6000 카드에서 테스트되었지만, Ampere, Ada, Hopper, Turing 아키텍처를 사용하는 다양한 GPU에 위험이 적용됩니다. 특히 워크스테이션과 서버에서 사용되는 GPU들에게는 더욱 그렇습니다. NVIDIA는 영향을 받는 모델 목록을 발표하고 대부분의 모델에 대해 ECC(ECC, Error Correction Code)를 권장하고 있습니다. 최신 GPU인 RTX 5090과 H100은 칩 내장 ECC를 통해 자동으로 이 문제를 해결합니다. NVIDIA의 대응 방안은 간단하지만 중요합니다: ECC를 지원하는 GPU에서는 ECC를 활성화해야 합니다. ECC는 메모리에 중복성을 추가하여 이러한 비트 뒤집음 오류를 감지하고 수정하는 기능입니다. 그러나 ECC를 활성화하면 머신 러닝 작업의 성능이 약 10% 저하되고, 약 6-6.5%의 사용 가능한 VRAM이 줄어들 수 있다는 점을 기억해야 합니다. 하지만 심각한 AI 작업을 안심하고 수행하려면 이 정도 희생은 가치가 있습니다. 이러한 공격들은 단순히 시스템을 충돌시키거나 버그를 일으키는 것이 아니라, AI 자체의 무결성을 훼손하여 모델의 행동이나 결정 방식에 영향을 미칩니다. 하드웨어 수준에서 이러한 변경이 이루어지므로, 이를 정확히 파악하지 못하면 거의 눈에 띄지 않습니다. 의료, 금융, 자율 주행 등의 규제 산업에서는 잘못된 결정, 보안 실패, 심지어 법적 문제까지 초래할 수 있습니다. 일반 사용자는 직접적인 위험에 처해 있지 않더라도, GPU 메모리가 조용히 조작될 수 있다는 사실은 업계 전체가 진지하게 고려해야 할 사항입니다. 특히 게임뿐만 아니라 AI, 창의적인 작업, 생산성을 위해 GPU가 계속 발전함에 따라 위험도 함께 진화하고 있습니다. 이제 GPU에서도 메모리 안전성이 선택사항이 아닌 필수 요소가 되어야 합니다. 업계 관계자들은 GPUHammer 공격이 클라우드 컴퓨팅 및 서버 환경에서 특히 위험하다고 평가하며, 이는 데이터 무결성과 보안에 대한 새로운 차원의 도전으로 볼 수 있습니다. NVIDIA는 GPU 시장의 선두주자로서, 이러한 문제에 적극적으로 대응하고 있으며, 앞으로도 메모리 안전성 강화를 위한 지속적인 연구와 개발을 진행할 것으로 예상됩니다.

Related Links