AIレビュー導入で揺れる学術界:効率と信頼の狭間へ
AIによる査読が実用化されつつあるが、科学界はその準備が整っていない。ニューヨークを拠点とする非営利団体openRxivが運営する生物医学系プレプリントサーバー「bioRxiv」と「medRxiv」に、イスラエル・テルアビブのスタートアップ企業q.e.d Scienceが開発したAI査読ツールが導入された。このシステムは、通常30分以内に論文の独自性、論理的整合性、実験の改善点などを自動的に評価し、フィードバックを提供する。 その魅力は明らかだ。長期間の査読待ちや、難解な人間の批評に苦しむ研究者にとっては、AIによる迅速かつ中立的なフィードバックが理想的な解決策に見える。大規模言語モデル(LLM)は統計手法のチェックや引用の整合性確認など、技術的な品質評価には優れている。こうしたルーティンな作業をAIに任せれば、人間の研究者の貴重な時間は、真正の革新や理論の転換を評価する重要な任務に集中できる。 しかし、問題はここから始まる。査読の目的には二つの側面がある。一つは、標準的な研究が統計的手法や論理の整合性を満たしているかを検証すること。もう一つは、既存の枠組みを覆すような異例の発見や、予期せぬ結果を評価することだ。前者はAIが得意とする領域だが、後者は人間の判断力と創造性が不可欠である。AIは平均的な意見を出力する傾向があり、個別の専門家の洞察や、理論の限界を問い直すような深い批判を提供できない。 実際、2024年の研究(W. Liangら、NEJM AI)では、GPT-4が人間査読者の「平均的意見」を正確に再現できることを示した。しかし、科学的進展は「平均」ではなく「例外」から生まれる。研究者の中には、AIの査読を欺くために論文に意図的なメッセージを隠す「AIゲーム」が既に発生している。 AI査読は効率を高める可能性があるが、その代償として科学的判断の質が損なわれるリスクをはらんでいる。科学界は、技術の速さに流されず、AIの限界を正しく理解し、人間の知性と責任が不可欠であることを再確認する必要がある。
