MIT が新しい研究成果を発表、AI モデルの予測解釈能を向上させる
MIT とイタリア工科大学の共同研究チームは、AI が自身の予測根拠を人間が理解しやすい概念で説明する新手法を開発しました。この技術は、医療診断や高リスク分野におけるAIの信頼性向上を目指しています。従来の概念ボトルネックモデルでは、人間が事前に定義した概念(例:医学画像における「茶色の点」や「色むら」)を用いますが、これらは特定のタスクに適合せず、精度低下や意図しない情報漏洩の原因となっていました。研究者は、すでに学習済みのAIモデル内部に存在する最適な概念を自動抽出し、自然言語で解釈可能に変換するアプローチを採用しました。具体的には、スパースオートエンコーダーがモデルが学習した特徴量から関連性の高い概念を抽出し、マルチモーダル大規模言語モデルがそれらを平易な言葉で記述します。さらに、画像データにこれらの概念を注釈付けすることで概念ボトルネックモジュールを訓練し、最終的な予測モデルに統合しました。これにより、モデルは人間が定義した概念ではなく、自身で獲得した概念のみを使用して判断を行うようになります。実証実験では、鳥の特定や皮膚病変の検出において、既存の最先端モデルと比較して最高レベルの精度を維持しつつ、より正確で簡潔な説明を提供することに成功しました。研究を主導したミラノ工科大学のアントニオ・デ・サンティス氏によると、この手法はAIの「思考」を読み解くことを可能にし、ブラックボックス化が進むAIの責任所在を明確にすると述べています。将来的には、情報漏洩の問題を解決するため、複数の概念モジュールを追加する計画や、より大規模な言語モデルを活用した精度向上が期待されています。この成果は、解釈可能なAIとシンボルAIの橋渡しとなり、構造化された知識グラフとの連携にも新たな可能性を開くものと評価されています。
