
기반 모델(Foundation models)은 지난 몇 년간 혁신적인 발전을 이뤄냈으며, 일반 목적의 인공지능(AI)을 위한 유망한 접근법으로 널리 인식되고 있다. 특히, 대량의 레이블이 없는 데이터를 활용해 자기지도 학습(self-supervised learning)을 통해 기반 모델을 사전 학습하는 방식이 널리 채택되고 있다. 사전 학습된 기반 모델은 AI 생태계의 ‘운영 체제(operating system)’와 같은 역할을 한다. 구체적으로, 기반 모델은 소량 또는 전혀 레이블이 없는 데이터로도 다양한 후속 작업(downstream tasks)에 대한 특징 추출기로 활용될 수 있다. 기반 모델에 관한 기존 연구는 주로 비대립적 환경(non-adversarial settings)에서 후속 작업 성능을 향상시키기 위해 더 나은 기반 모델을 사전 학습하는 데 집중해 왔으며, 대립적 환경에서의 보안성과 개인정보 보호 문제는 여전히 거의 탐색되지 않은 영역이다. 사전 학습된 기반 모델의 보안 또는 개인정보 보호 문제는 AI 생태계 전체에 대한 단일 실패 지점(single point of failure)을 초래할 수 있다. 본 장에서는 사전 학습된 기반 모델에 대한 10가지 기본적인 보안 및 개인정보 보호 문제를 다룬다. 이 문제들은 6가지 기밀성(confidentiality) 문제, 3가지 무결성(integrity) 문제, 그리고 1가지 가용성(availability) 문제로 구성된다. 각 문제에 대해 잠재적인 기회와 도전 과제를 논의한다. 본 장이 향후 기반 모델의 보안성과 개인정보 보호에 관한 연구를 촉진하는 데 기여하기를 기대한다.