HyperAIHyperAI

Command Palette

Search for a command to run...

オープンソースAIの軽量化でも安全性能を維持——UCリバーサイドが内部再訓練で脆弱性を克服

オープンソースの生成AIモデルがスマートフォンや車載機器など低消費電力環境で利用される中、安全対策が脆弱化するリスクが浮き彫りになっている。カリフォルニア大学リバーサイド(UCR)の研究チームは、モデルの内部層を削減することで安全機能が失われる「画像エンコーダー早期終了(ICET)」という新たな脆弱性を発見し、その対策として「レイヤーごとのCLIP-PPO(L-PPO)」という再訓練手法を提案した。この問題は、モデルの軽量化に伴い、安全を保つために設計された重要な処理層が省略されることで生じる。結果として、AIが差し支えのない画像に悪意ある質問を組み合わせると、違法な情報や爆発物の作成手順を生成するリスクが高まる。 研究のリーダーであるアミット・ロイ・チョウドリー教授は、「削除された層の一部は、不適切な出力を防ぐために不可欠だった」と指摘。特に、画像とテキストの組み合わせによって安全フィルターをすり抜けられる事例が確認された。実験では、LLaVA 1.5という視覚言語モデルを用い、一部の層を削除した状態で悪意ある質問に応じさせると、詳細な爆弾製造手順を返す事態が発生した。 これに対し、研究チームはモデルの内部構造そのものを再学習することで、安全な振る舞いを根本から維持する手法を構築。外部フィルターやソフトウェア修正ではなく、AI自らが「危険な内容を認識する能力」を内面化する仕組みにした。再訓練後、モデルは元の構造の一部を削った状態でも、危険な質問に対して一貫して拒否するようになり、安全性が維持された。 研究の共同主筆者であるサケス・バチュとエルファン・シャイエガニ両大学院生は、このアプローチを「善意あるハッキング」と表現。AIの構造を変更しても安全を保つ仕組みを構築することで、オープンソースAIの進化と責任ある利用を両立させたいと語る。同研究は、バンクーバーで開催された国際機械学習会議(ICML)で発表され、今後のAI開発における安全設計の新たな指針となる可能性がある。

関連リンク

オープンソースAIの軽量化でも安全性能を維持——UCリバーサイドが内部再訓練で脆弱性を克服 | 人気の記事 | HyperAI超神経