탈옥
탈옥은 ChatGPT와 같은 AI 모델의 윤리적 보호 장치를 깨는 방법으로 정의할 수 있습니다.특정 텍스트 프롬프트를 사용하여 콘텐츠 검토 지침을 쉽게 우회함으로써 인공 지능 프로그램이 어떠한 제한도 받지 않도록 합니다. 예를 들어, ChatGPT와 같은 AI 모델은 일반적으로 허용되지 않는 질문에 답할 수 있으며, 이러한 특정 프롬프트를 "탈옥"이라고도 합니다.
LLM에 대한 탈옥 위협
- 정적 데이터 – LLM의 첫 번째 한계는 정적 데이터를 기반으로 학습된다는 것입니다. 예를 들어, ChatGPT는 2021년 9월 기준 데이터를 사용하여 학습되었으므로 더 최신 정보에 접근할 수 없습니다. LLM 모델은 새로운 데이터 세트로 학습될 수 있지만, 이는 자동으로 진행되는 프로세스가 아니며 정기적인 업데이트가 필요합니다.
- 개인 정보 노출 – LLM의 또 다른 위협은 힌트를 사용하여 AI 모델을 학습하고 개선할 수 있다는 것입니다. 현재 LLM은 일정량의 데이터를 사용하여 학습된 후 사용자 쿼리에 답하는 데 사용되었습니다. 이러한 쿼리 데이터는 현재 학습 데이터 세트에 사용되지 않지만, 쿼리/힌트가 LLM 제공자에게 표시된다는 점이 우려스럽습니다. 이 쿼리 데이터는 저장되므로 항상 사용자 데이터를 사용하여 모델을 학습할 수 있습니다. LLM을 사용하기 전에 이러한 개인정보 보호 문제를 철저히 조사해야 합니다.
- 부적절한 콘텐츠 생성 – LLM 모델은 잘못된 사실과 유해한 콘텐츠(탈옥 사용)를 생성할 수 있습니다. 오픈 소스 코드의 취약점을 파악하도록 AI 모델을 속이거나 피싱 웹사이트를 만드는 데 사용될 수 있는 "큐워드 공격"의 위험도 있습니다.
- 맬웨어와 사이버 공격 생성 – 또 다른 문제는 ChatGPT와 같은 LLM 기반 모델의 도움으로 맬웨어를 만드는 것입니다. 기술적인 능력이 부족한 사람도 LLM을 사용하여 맬웨어를 만들 수 있습니다. 범죄자는 LLM을 이용해 사이버 공격과 관련된 기술적 조언을 얻을 수도 있습니다. 마찬가지로, 탈옥 팁은 제한을 우회하고 맬웨어를 만드는 데 사용될 수 있습니다.
참고문헌
【1】https://www.techopedia.com/what-is-jailbreaking-in-ai-models-like-chatgpt