HyperAI超神经

脱獄は、ChatGPT などの人工知能モデルの道徳的保護を破る方法として定義できます。特定のテキストプロンプトを使用して、コンテンツ管理ガイドラインを簡単に回避し、人工知能プログラムを無制限にします。たとえば、ChatGPT のような AI モデルは、通常の状況では許可されない質問に答えることができます。これらの特定のプロンプトは「脱獄」とも呼ばれます。

LLM に対する脱獄の脅威

静的データ - LLM の最初の制限は、LLM が静的データでトレーニングされていることです。たとえば、ChatGPT は 2021 年 9 月時点のデータを使用してトレーニングされたため、それより新しい情報にはアクセスできません。 LLM モデルは新しいデータセットを使用してトレーニングできますが、これは自動プロセスではなく、定期的な更新が必要です。
個人情報の漏洩 – LLM に対するもう 1 つの脅威は、AI モデルを学習および強化するためにヒントを使用する可能性があることです。現時点では、LLM は一定量のデータを使用してトレーニングされ、ユーザーのクエリに答えるために使用されています。これらのクエリデータは現在トレーニングデータセットでは使用されていませんが、問題はクエリ/ヒントが LLM プロバイダーに表示されることです。このクエリデータは保存されるため、いつでもユーザーデータを使用してモデルをトレーニングすることができます。 LLM を使用する前に、これらのプライバシー問題を徹底的に調査する必要があります。
不適切なコンテンツの生成 – LLM モデルは、誤った事実や有害なコンテンツ (脱獄を使用) を生成する可能性があります。また、AI モデルにオープンソースコードの脆弱性を特定したり、フィッシング Web サイトを作成したりするよう教えるために使用される「ヒントワード攻撃」のリスクもあります。
マルウェアの作成とネットワーク攻撃 - もう 1 つの問題は、ChatGPT などの LLM ベースのモデルを利用してマルウェアを作成することです。技術的なスキルがあまり高くない人でも、LLM を使用してマルウェアを作成できます。犯罪者は LLM を使用して、サイバー攻撃に関連する技術的なアドバイスを取得することもできます。同様に、脱獄のヒントを使用して制限を回避し、マルウェアを作成することができます。

参考文献

【1】https://www.techopedia.com/what-is-jailbreaking-in-ai-models-like-chatgpt