금융서비스 업계, 생성형 AI 추론의 복잡성에 직면… 저장소부터 아키텍처까지 혁신이 필요하다
금융서비스업계는 생성형 AI의 학습보다 추론이 더 복잡하고 도전적인 과제에 직면해 있다. 기존 머신러닝 시대에는 모델 크기가 작아 추론이 간단했지만, 지금은 대규모 언어모델이 스마트폰, 지점 엣지 디바이스, 데이터센터 등 다양한 환경에서 저지연 처리가 필요해졌기 때문이다. 특히 JPMorgan Chase의 ‘IndexGPT’는 GPT-4 기반으로 투자 주제 키워드를 자동 생성해 시장 분석을 자동화하고, Wells Fargo의 ‘Fargo’는 모바일 내 소형 LLM으로 음성 인식을 처리하고, 구글 Gemini Flash 등 외부 모델과 연동해 금융 서비스를 제공한다. 이처럼 금융기관은 위험 평가, 대출 심사, 사기 탐지, 고객 경험 개선 등 다양한 분야에서 AI 추론을 도입하고 있으며, 2023년 2130만 건에서 2024년 2.45억 건으로 추론 트래픽이 급증했다. 이에 따라 초지능 추론을 위한 고성능 시스템이 필요해졌고, Nvidia의 GB300 NVL72 등 랙스케일 서버가 등장했다. 이 시스템은 144개 GPU 칩을 탑재해 1.1페타플롭의 FP4 추론 성능을 제공하며, 향후 VR200 NVL144는 3.6엑사플롭까지 가능하다. 동시에 저장소는 더 이상 후순위가 아니다. 키-밸류 캐시, 컨텍스트 윈도우 캐시, 지속성 메모리 등이 GPU 메모리 부담을 줄이고 반복 작업의 재계산을 방지해 추론 비용을 절감한다. Hammerspace는 글로벌 메타데이터 기반 분산 파일 시스템으로 데이터를 GPU 노드에 효율적으로 공급하며, Vast Data는 NFS over RDMA 기반 플랫폼으로 대규모 세션 상태를 외부 저장소에 유지한다. 금융기관은 데이터 보안과 규제 준수를 고려해 신중하게 AI 도입을 추진하고 있지만, 추론 성능과 비용 최적화는 기술적 핵심 과제로 부상하고 있다.