LLMの性能は平均水準
メリーランド大学とGoogle DeepMindの研究チームは、大規模言語モデルの物語生成特性を分析したStoryScope報告書を公開した。LLMが確率分布の中心である平均的な選択を好む傾向を定量評価するもの。 調査手法は以下の通り。1万272篇の人間短編小説からプロンプトを逆抽出し、Claude、DeepSeek、Gemini、GPT、Kimiの5モデルに再作成を依頼。計6万1608篇の生成文を用い、スタイル要素を除外した上で、プロット構造、時間軸、展開など304の特徴量で分類器を訓練した。 主要所見は、AIが人間より結論明示を77%と高く設定し、曖昧さやサブプロットを著しく回避する点にある。感情描写では81%が身体的反応で表現する手法に依存し、読者への直接呼びかけや現実参照を回避する傾向も確認された。また、5モデルすべてがナラティブ空間上で緊密にクラスタリングする一方、人間作品は広く散在。全6バージョンのうち人間作が最も希少と評価された割合は57.8%に達し、機械は中心的選択を偏り人間は稀であるとの結論に至った。 本調査は、従来の単語頻度や句読点に依存するスタイルベースAI検出の限界も示唆する。ファインチューニングやモデル更新により表面特徴は容易に変化するため、今後はプロンプト設計や論理構造など創作的決定プロセスを測定する手法が不可欠となる。各モデルに固有の癖は残るものの、ナラティブ構造における平均化現象は今後も技術的課題であり、クリエイティブAIの評価基準転換と人間と機械の棲み分けを考える上で重要な知見となる。
