
要約
近年の合成データ技術の進展により、人工知能(AI)が生成する画像の品質が極めて高く、人間が本物の写真とAI生成画像の区別がつかないほどにまで向上している。このような状況において、データの信頼性および認証の重要性が増す中、本稿ではコンピュータビジョンを活用してAI生成画像を識別する能力を向上させる手法を提案する。まず、既存のCIFAR-10データセットの10クラスを模倣する合成データセットを、潜在拡散(latent diffusion)手法を用いて生成し、実写写真との対比が可能な画像群を構築した。このモデルは、水面上の写真レベルの反射といった複雑な視覚的特徴の生成が可能である。生成画像と実写画像の2つのデータセットは、画像が本物かAI生成かを判別する二値分類問題として扱える。本研究では、これらの画像を「本物」または「偽物」の2クラスに分類するため、畳み込みニューラルネットワーク(CNN)の利用を提案する。ハイパーパラメータの最適化と36種類の異なるネットワーク構造に対する学習を経て、最適なアプローチが92.98%の正確率で画像を正しく分類することを確認した。さらに、分類に有用な画像内特徴を解釈するため、勾配クラス活性化マッピング(Gradient Class Activation Mapping: Grad-CAM)を用いた説明可能AI(Explainable AI)の実装を行った。解釈結果から、分類に重要な情報は画像の主な対象自体ではなく、背景部分に存在する微小な視覚的不完全さ(ノイズや歪みなど)であることが明らかになった。本研究で独自に構築した完全なデータセットは「CIFAKEデータセット」として名称付けられ、今後の研究に向け、研究コミュニティ全体に公開されている。