UIUC 리보와의 인터뷰 | 사용성부터 신뢰성까지, AI에 대한 학계의 궁극적 사고

본 기사는 HyperAI WeChat 공개 플랫폼에 처음 게재되었습니다~
ChatGPT의 등장은 기술계에 다시 한번 큰 파장을 일으켰습니다. 이러한 논란은 광범위한 영향을 미쳤으며, 기술 커뮤니티를 두 개의 파벌로 나누었습니다. 한 학파는 AI의 급속한 발전이 곧 인간을 대체할 것이라고 믿습니다. 이러한 "위협 이론"이 근거 없는 것은 아니지만, 다른 학계에서는 다른 견해를 가지고 있습니다.AI의 지능 수준은 아직 인간을 뛰어넘지 못했으며, 심지어 "개만큼 좋지도 않다"고 할 정도로 인류의 미래를 위협하기에는 아직 멀었습니다.
물론 이 논쟁은 조기에 경고를 받을 만하지만, Zhang Chengqi 교수와 다른 전문가 및 학자들이 2023 WAIC Summit Forum에서 지적했듯이,AI에 대한 인간의 기대는 언제나 유용한 도구입니다.그것은 단지 도구일 뿐이므로 "위협 이론"과 비교하면,더 중요한 문제는 그것이 신뢰할 만한지 여부이며, 어떻게 신뢰성을 향상시킬 수 있는가이다.결국, AI가 더 이상 신뢰할 수 없게 되면 미래의 발전은 어떻게 될까요?
그렇다면 신뢰성의 기준은 무엇이고, 현재 이 분야는 어떤 위치에 있을까요?HyperAI는 이 분야의 최첨단 학자이자 일리노이 대학의 준교수인 리보와 심도 있는 토론을 나눌 수 있는 행운을 얻었습니다. 리보는 IJCAI-2022 컴퓨터 및 사고상, 슬론 연구상, 국립 과학 재단 경력상, AI 10 주목상, MIT 기술 리뷰 TR-35상, 인텔 라이징 스타 등 많은 상을 수상했습니다. 그녀의 연구와 소개에 따라 이 글은 AI 보안 분야의 개발 맥락을 정리했습니다.

2023년 IJCAI YES에서의 리보
머신러닝은 양날의 검이다
장기적인 타임라인을 살펴보면, 리보의 연구 여정은 신뢰할 수 있는 AI 개발의 축소판이기도 합니다.
2007년에 리보는 정보보안학을 전공하며 학부에 입학했습니다. 당시 국내 시장은 이미 네트워크 보안의 중요성을 깨닫고 방화벽, 침입 탐지, 보안 평가 등 다양한 제품과 서비스를 개발하기 시작했지만, 전반적으로는 여전히 발전 단계에 있었습니다. 지금 돌이켜보면, 이 선택은 위험했지만 올바른 시작이었습니다.리보는 아직 '새로운' 분야에서 보안 연구의 길을 걷기 시작했으며, 동시에 후속 연구를 위한 토대를 마련했습니다.

리보는 동지대학교에서 정보보안을 전공했습니다.
박사 수준에서는리보는 AI 보안에 더욱 집중할 예정이다.제가 그다지 대중적이지 않은 이 분야를 선택한 이유는 단순히 제 관심사 때문만이 아니라, 제 멘토의 격려와 지도 덕분이기도 합니다. 당시 이 전공은 그다지 대중적이지 않았고, 리보의 선택은 매우 위험한 것이었습니다. 하지만 그럼에도 불구하고 그녀는 정보 보안에 대한 학부 수준의 지식을 바탕으로 AI와 보안을 결합하면 매우 뛰어난 결과를 낼 수 있을 것이라는 걸 절실히 깨달았습니다.
당시 리보와 그의 지도교수는 주로 게임 이론의 관점에서 연구에 참여하고 있었습니다.Stackelberg 게임을 사용하여 분석하는 것처럼 AI의 공격과 방어를 게임으로 모델링합니다.
스태켈버그 게임은 종종 전략적 리더와 추종자 간의 상호 작용을 설명하는 데 사용됩니다. AI 보안 분야에서는 공격자와 방어자 간의 관계를 모델링하는 데 사용됩니다. 예를 들어, 적대적 머신 러닝에서 공격자는 머신 러닝 모델을 속여 잘못된 출력을 생성하려고 시도하는 반면, 방어자는 이러한 공격을 탐지하고 방지하기 위해 노력합니다. Stackelberg 게임을 분석하고 연구함으로써,리보와 같은 연구자들은 머신 러닝 모델의 보안과 견고성을 강화하기 위한 효과적인 방어 메커니즘과 전략을 설계할 수 있습니다.

스태켈버그 게임 모델
2012년부터 2013년까지 딥러닝의 인기로 인해 머신러닝이 모든 생활 영역에 빠르게 침투하게 되었습니다. 하지만 머신러닝이 AI 기술의 개발과 변화를 이끄는 중요한 원동력이기는 하지만, 그것이 양날의 검이라는 사실을 감추기는 어렵습니다.
머신 러닝은 방대한 양의 데이터에서 패턴을 학습하고 추출하여 다양한 분야에서 뛰어난 성능과 성과를 달성할 수 있습니다.예를 들어, 의료 분야에서는 질병을 진단하고 예측하는 데 도움이 되며, 더 정확한 결과와 개인화된 의료 조언을 제공할 수 있습니다.반면, 머신러닝도 어느 정도 위험에 직면해 있다.첫째, 머신러닝의 성능은 학습 데이터의 품질과 대표성에 크게 좌우됩니다. 데이터에 편향이나 노이즈 등의 문제가 발생하면 모델이 잘못되거나 차별적인 결과를 내기가 매우 쉽습니다.
또한 이 모델은 개인정보에 의존하게 될 수도 있으며, 이로 인해 개인정보 유출 위험이 있습니다. 게다가 적대적인 공격도 무시할 수 없습니다. 악의적인 사용자는 입력 데이터를 변경하여 의도적으로 모델을 속여 잘못된 출력을 생성할 수 있습니다.
이러한 배경에서 신뢰할 수 있는 AI가 등장하여 이후 몇 년 동안 전 세계적인 합의로 발전했습니다. 2016년 유럽의회 법무위원회(JURI)는 "로봇 공학에 관한 민법 규칙에 관한 유럽 위원회에 대한 입법 권고안 초안 보고서"를 발표하면서 유럽 위원회가 인공지능 기술의 위험성을 가능한 한 빨리 평가해야 한다고 주장했습니다. 2017년 유럽 경제사회위원회는 AI에 대한 의견을 발표하면서, AI 윤리 규범과 모니터링 인증에 대한 표준 시스템을 구축해야 한다고 제안했습니다. EU는 2019년에 "신뢰할 수 있는 AI를 위한 윤리 지침"과 "알고리즘 책임 및 투명성 거버넌스 프레임워크"를 발표했습니다.
중국에서는 허지펑(何吉峰) 원사가 2017년에 처음으로 신뢰할 수 있는 AI라는 개념을 제안했습니다. 2017년 12월, 공업정보화부는 "차세대 인공지능 산업 발전 촉진 3개년 행동 계획"을 발표했습니다. 2021년 중국정보통신기술연구원과 JD디스커버리연구소가 공동으로 중국 최초의 "신뢰받는 인공지능 백서"를 발표했습니다.

"신뢰받는 인공지능 백서" 기자회견
신뢰할 수 있는 AI 분야의 부상으로 AI는 더욱 신뢰할 수 있는 방향으로 나아가고 있으며, 이는 리보의 개인적 판단을 확증해 주었습니다.그녀는 과학 연구에 헌신하고 머신 러닝과의 대결에 집중했으며, 자신의 판단에 따라 UIUC에서 조교수가 되었습니다. 자율 주행 분야에서 그녀가 수행한 연구 결과인 "딥 러닝 시각적 분류에 대한 견고한 물리적 세계 공격"은 영국 런던의 과학 박물관에 영구 소장되었습니다.
AI의 발전으로 신뢰할 수 있는 AI 분야는 의심할 여지 없이 더 많은 기회와 도전을 가져올 것입니다. 저는 개인적으로 보안이 영원한 주제라고 생각합니다. 애플리케이션과 알고리즘의 발전에 따라 새로운 보안 위험과 해결책이 등장할 것입니다. 이것이 보안의 가장 흥미로운 지점입니다. AI 보안은 AI와 사회의 발전에 발맞춰 나아갈 것입니다. 이보는 그것에 대해 이야기했습니다.
대규모 모델의 신뢰성을 통해 현장의 현재 상태 탐색
GPT-4의 등장은 모든 사람의 관심의 초점이 되었습니다. 어떤 사람들은 이것이 제4차 산업혁명의 시작이라고 믿고, 어떤 사람들은 이것이 AGI의 전환점이라고 믿고, 어떤 사람들은 이것이 AGI에 대해 부정적인 태도를 가지고 있습니다. 예를 들어, 튜링상 수상자인 얀 르 쿤은 한때 공개적으로 "ChatGPT는 현실 세계를 이해하지 못하며 5년 안에 아무도 사용하지 않을 것"이라고 말했습니다.
이와 관련해 리보는 이 빅모델 열풍에 대해 매우 기쁘다고 말했습니다. 이 열풍은 의심할 여지 없이 AI 발전을 실제로 촉진했으며, 이러한 추세는 특히 자율주행, 스마트 의료, 바이오제약 등 높은 보안 요구 사항과 높은 복잡성을 지닌 일부 분야에서 신뢰할 수 있는 AI 분야에 대한 요구 사항을 더욱 높일 것이기 때문입니다.
동시에 신뢰할 수 있는 AI의 새로운 응용 시나리오와 새로운 알고리즘이 더 많이 등장할 것입니다. 하지만 이보 역시 후자의 견해에 전적으로 동의한다.현재 모델은 아직 실제 세계를 제대로 이해하지 못했으며, 그녀의 팀의 최신 연구 결과에 따르면 대규모 모델은 여전히 신뢰성과 보안 측면에서 많은 허점이 있는 것으로 나타났습니다.
리보와 그의 팀의 연구는 주로 GPT-4와 GPT-3.5를 대상으로 합니다. 연구팀은 독성, 고정관념 편향, 적대적 견고성, 분포 외부 견고성, 맥락 내 학습에서 시범 샘플을 생성하는 견고성, 개인정보 보호, 기계 윤리, 다양한 환경에서의 공정성 등 8가지 각도에서 새로운 위협 취약성을 발견했습니다.

서류 주소:
https://decodingtrust.github.io/
구체적으로, 리보와 그의 팀은 GPT 모델이 쉽게 오도되어 모욕적인 언어와 편향된 응답을 생성하고, 훈련 데이터와 대화 기록에 있는 개인 정보가 유출될 수도 있다는 것을 처음 발견했습니다. 동시에 그들은 GPT-4가 표준 벤치마크 테스트에서 GPT-3.5보다 더 신뢰할 수 있는 성능을 보였지만, 결합된 적대적 탈옥 시스템과 사용자 프롬프트로 인해 GPT-4가 공격에 더 취약하다는 것을 발견했습니다. 이는 GPT-4가 오해의 소지가 있는 지침을 포함한 모든 지침을 보다 정확하게 따르기 때문입니다.
따라서 추론 능력의 관점에서 볼 때, 리보는 AGI의 도래는 아직 먼 미래의 일이라고 생각하며, 앞으로의 가장 중요한 문제는 모델의 신뢰성을 해결하는 것이라고 생각합니다.과거에도 리보의 연구팀은 데이터 기반 학습과 지식 강화를 기반으로 한 논리적 추론 프레임워크 개발에 주력해 왔으며, 지식 기반과 추론 모델을 사용하여 대규모 데이터 기반 모델의 신뢰성 부족을 보완하고자 했습니다. 그녀는 미래를 내다보면서 머신 러닝의 추론 능력을 더욱 효과적으로 자극하고 모델의 위협 취약성을 보완할 수 있는 더욱 새롭고 뛰어난 프레임워크가 등장할 것이라고 믿고 있습니다.
그러면 대규모 모델에 대한 신뢰의 현재 상태를 통해 신뢰할 수 있는 AI 분야의 전반적인 방향을 엿볼 수 있을까요? 우리 모두가 알고 있듯이,안정성, 일반화 능력(설명 가능성), 공정성, 개인정보 보호는 신뢰할 수 있는 AI의 기반이며, 이 네 가지 중요한 하위 방향이기도 합니다.리보는 대형 모델이 등장하면서 새로운 기능이 필연적으로 새로운 신뢰성 한계를 가져올 것이라고 생각합니다. 예를 들어, 맥락적 학습에서 적대적 또는 분포 범위를 벗어난 사례에 대한 견고성이 부족해질 수 있습니다. 이러한 맥락에서 여러 하위 방향은 서로를 촉진하고 그들 사이의 본질적인 관계에 대한 새로운 정보나 해결책을 제공하게 될 것입니다. "예를 들어, 우리의 이전 연구에서는 머신 러닝의 일반화와 견고성이 연합 학습에서 양방향 지표가 될 수 있으며, 모델의 견고성은 개인 정보 보호 등의 함수로 간주될 수 있음을 보여주었습니다."
신뢰할 수 있는 AI의 미래를 기대합니다
신뢰 AI 분야의 과거와 현재를 돌이켜보면, 리보가 대표하는 학계, 대형 기술 기업을 대표하는 업계, 그리고 정부가 모두 각기 다른 방향으로 탐구하여 일련의 성과를 거두었음을 알 수 있습니다. 앞으로 나아가면서,리보는 "AI의 발전은 멈출 수 없습니다. 안전하고 신뢰할 수 있는 AI를 확보해야만 다양한 분야에 안전하게 적용할 수 있습니다."라고 말했습니다.
구체적으로 어떻게 신뢰할 수 있는 AI를 구축할 수 있을까? 이 질문에 답하려면 먼저 '신뢰할 만한' 것이 정확히 무엇인지 생각해야 합니다. “현재 가장 중요한 이슈 중 하나는 통일되고 신뢰할 수 있는 AI 평가 기준을 마련하는 것이라고 생각합니다.”방금 마무리된 지위안 대회와 세계인공지능대회에서 신뢰할 수 있는 AI에 대한 논의가 전례 없는 수준에 도달했지만, 대부분의 논의는 여전히 논의 수준에 머물러 있으며 체계적인 방법론적 지침이 부족합니다. 업계에서도 마찬가지입니다. 일부 회사는 관련 툴킷이나 아키텍처 시스템을 출시했지만 패치 기반 솔루션은 단 하나의 문제만 해결할 수 있습니다. 그래서 많은 전문가들은 이 분야에서 여전히 신뢰할 수 있는 AI 평가 기준이 부족하다는 점을 반복해서 언급해 왔습니다.
이보는 이에 깊은 감동을 받았다."신뢰할 수 있는 AI 시스템을 보장하기 위한 전제 조건은 신뢰할 수 있는 AI 평가 사양을 갖추는 것입니다."그녀는 또한 그녀의 최근 연구 "DecodingTrust"가 다양한 관점에서 포괄적인 모델 신뢰성 평가를 제공하는 것을 목표로 한다고 말했습니다. 산업 분야로 확장하면서 적용 시나리오가 점점 더 복잡해지고 있으며, 이로 인해 신뢰할 수 있는 AI 평가에 대한 과제와 기회가 더 많아지고 있습니다. 더욱 신뢰할 수 있는 취약점이 다양한 시나리오에서 나타날 수 있으므로, 이를 통해 신뢰할 수 있는 AI 평가 기준을 더욱 개선할 수 있습니다.
요약하자면,리보는 신뢰할 수 있는 AI 분야의 미래는 전면적이고 실시간으로 업데이트되는 신뢰할 수 있는 AI 평가 시스템을 구축하고, 이를 기반으로 모델의 신뢰성을 높이는 데 중점을 두어야 한다고 생각합니다."이 목표를 달성하려면 학계와 산업계의 긴밀한 협력이 필요하며, 이를 통해 함께 달성할 수 있는 더 큰 커뮤니티를 형성해야 합니다."

UIUC 보안 학습 랩 GitHub 홈페이지
GitHub 프로젝트 주소:
동시에, 리보가 근무하는 보안학습연구실 역시 이 목표를 향해 노력하고 있습니다.그들의 최근 연구 결과는 주로 다음과 같은 방향으로 배포됩니다.
1. 데이터 기반 학습을 기반으로 한 검증 가능하고 견고한 지식 강화 논리적 추론 프레임워크는 데이터 기반 모델과 지식 강화 논리적 추론을 결합하여 데이터 기반 모델의 확장성과 일반화 기능을 최대한 활용하고 논리적 추론을 통해 모델의 오류 수정 기능을 향상시키도록 설계되었습니다.
이러한 방향으로, 리보와 그의 팀은 학습-추론 프레임워크를 제안하고 그 인증 견고성을 증명했습니다. 연구 결과에 따르면, 제안된 프레임워크는 단일 신경망 모델만을 사용하는 방법보다 상당한 이점이 있는 것으로 입증되었으며, 충분한 수의 조건이 분석되었습니다. 동시에 그들은 학습-추론 프레임워크를 다양한 작업 영역으로 확장했습니다.
관련 논문:
* https://arxiv.org/abs/2003.00120
* https://arxiv.org/abs/2106.06235
* https://arxiv.org/abs/2209.05055
2. DecodingTrust: 언어 모델의 신뢰도 평가를 위한 최초의 포괄적인 모델 신뢰도 평가 프레임워크입니다.
관련 논문:
* https://decodingtrust.github.io/
3. 자율주행 분야에서는 안전이 중요한 시나리오 생성 및 테스트 플랫폼인 "SafeBench"를 제공합니다.
프로젝트 주소:
* https://safebench.github.io/
게다가,리보는 팀이 앞으로도 스마트 헬스케어, 금융 및 기타 분야에 집중할 계획이라고 밝혔다."신뢰할 수 있는 AI 알고리즘과 애플리케이션 분야의 획기적인 발전이 이러한 분야에서 더 일찍 나타날 수도 있습니다."
조교수에서 종신교수로: 열심히 일하면 성공은 자연스럽게 찾아온다
Li Bo의 소개에서 다음을 보는 것은 어렵지 않습니다.신뢰할 수 있는 AI라는 새로운 분야에는 아직 해결해야 할 문제가 많이 있습니다.따라서 리보 팀이 대표하는 학계든 업계든, 모든 당사자가 앞으로 폭발적으로 늘어날 수요에 충분히 대응하기 위해 현재 모색하고 있습니다. 신뢰할 수 있는 AI 분야가 등장하기 전 리보가 휴면 상태에 있다가 연구에 전념했던 것처럼, 관심과 낙관적인 태도만 있다면 성공은 시간문제일 뿐입니다.
이런 태도는 리보 자신의 교사 생활에서도 반영되었습니다. 그녀는 UIUC에서 4년 이상 일해왔습니다.올해 그는 종신 교수라는 칭호를 받았습니다.그녀는 전문직 타이틀 평가에는 연구 결과, 다른 선임 학자들의 학술 평가 등이 포함된 엄격한 절차가 있다고 소개했습니다. 어려움이 있지만,하지만 "한 가지 일에만 열심히 노력하면, 다른 모든 것은 자연스럽게 저절로 따라올 것입니다."동시에 그녀는 미국의 재임용 제도가 교수들에게 더 많은 자유와 더 위험한 프로젝트를 수행할 수 있는 기회를 제공한다고 언급했습니다. 따라서 리보는 앞으로 팀과 함께 새로운 고위험 프로젝트를 시도해 볼 예정이며, "이론과 실제에서 더 많은 획기적인 진전을 이루고자" 노력할 것입니다.

일리노이 대학교의 준교수이며, IJCAI-2022 컴퓨터 및 사고상, 슬론 연구상, NSF CAREER상, AI's 10 to Watch, MIT Technology Review TR-35상, 학장 연구 우수상, CW Gear 우수 주니어 교수상, Intel Rising Star상, Symantec Research Lab 펠로우십을 수상했으며, Google, Intel, MSR, eBay, IBM에서 최우수 논문상을 수상했으며, 여러 차례 최고의 머신 러닝 및 보안 컨퍼런스에 참석했습니다.
연구 관심사: 머신 러닝, 보안, 개인정보 보호 및 게임 이론이 교차하는 신뢰할 수 있는 머신 러닝의 이론적, 실용적 측면.
참조 링크:
[1] https://www.sohu.com/a/514688789_114778
[2] http://www.caict.ac.cn/sytj/202209/P020220913583976570870.pdf
[3] https://www.huxiu.com/article/1898260.html
본 기사는 HyperAI WeChat 공개 플랫폼에 처음 게재되었습니다~