2日前

概要

大規模言語モデル（LLM）の機密性の高いアプリケーションにおける利用の拡大は、AI によって生成されたテキストの由来（プロベナンス）と説明責任を確保するための、効果的な透かし技術の必要性を浮き彫りにしている。しかし、既存の透かし法の多くはデコードプロセスへのアクセスを必要とするため、実世界での適用性に制約が生じている。その一例として、学術査読において不誠実な査読者が LLM を利用するケースが挙げられる。この場合、会議主催者は使用されたモデルにアクセスできないにもかかわらず、AI によって生成された査読文を特定する必要がある。この課題に直面し、本研究では「インコンテキスト透かし（In-Context Watermarking: ICW）」を提案する。ICW は、プロンプトエンジニアリングのみを通じて生成テキストに透かしを埋め込む手法であり、LLM のインコンテキスト学習能力および指令追従能力を活用する。我々は、異なる粒度の 4 つの ICW 戦略を調査し、それぞれに特化した検出手法を組み合わせる。さらに、学術原稿などの入力ドキュメントを変更することで透かしを隠蔽的にトリガーする「間接プロンプトインジェクション（Indirect Prompt Injection: IPI）」設定を具体的な事例研究として検討する。実験により、ICW がモデル非依存かつ実用的な透かし手法として実現可能であることを実証した。加えて、LLM の能力が向上するにつれて、ICW はスケーラブルかつアクセスしやすいコンテンツ帰属付けに向けた有望な方向性を提供することが示唆される。

ソースPDF