LLMはパスワード予測に弱い?研究が明かすその理由
オーストラリアのFuture Data Minds Research Labの研究チームが、大規模言語モデル(LLM)がパスワードの推測にどれほど不向きかを明らかにした。この研究では、ChatGPTなどに使われるLLMが、個人の名前や誕生日、趣味といった情報から、その人物が使う可能性のある実用的パスワードを生成できるかを検証した。研究チームは、架空のユーザー1000人分のプロフィールを作成し、TinyLLaMA、Falcon-RW-1B、Flan-T5といった主流のオープンソースLLMに、それぞれのユーザーが選ぶと予想されるパスワードを生成させる実験を行った。 評価には、正解パスワードが上位1位、5位、10位以内に含まれる確率を測る「Hit@1」「Hit@5」「Hit@10」という標準的な指標を用いた。その結果、すべてのモデルがHit@10で1.5%未満の精度にとどまり、従来のルールベースや組み合わせ攻撃手法に比べて著しく劣っていた。これは、LLMが人間の心理的・習慣的パターンを正しく再現できていないことを示している。 研究チームは、LLMがこのタスクで失敗する理由を分析。LLMは言語の文法や文脈を扱えるものの、訓練データから特定のパスワードパターンを正確に記憶・適用する能力に欠けており、特に漏洩したパスワードデータによるファインチューニングがない限り、領域特化した推論ができないと指摘した。また、過去に学習した例を正確に想起できず、新しい状況に適応できないことも要因として挙げた。 この研究は、LLMがサイバー攻撃に悪用される可能性を過度に心配する必要はないことを示唆している。一方で、今後のセキュリティ研究において、LLMの限界を理解し、より安全なパスワード生成モデルや認証技術の開発につなげることが重要だと結論づけている。研究チームは、今後他のLLMについても同様の評価を行う予定であり、AIとセキュリティの交差点における知見の深化が期待される。
