
要約
我々は、大規模言語モデル(LLM)チャットボットの対話から洞察を生成するための新規フレームワーク「Urania」を紹介する。本フレームワークは、きめ細かな微分プライバシー(DP)保証を備えており、プライベートなクラスタリング機構と、頻度ベース、TF-IDFベース、およびLLMによる誘導型の新たなキーワード抽出手法を採用している。クラスタリング、パーティション選択、ヒストグラムベースの要約といったDPツールを活用することで、Uraniaはエンドツーエンドのプライバシー保護を実現する。評価では、語彙的・意味的コンテンツの保持度、対の類似性、およびLLMを用いたメトリクスを検証し、非プライバシー対応のClioにインスパイアされたパイプライン(Tamkinら、2024年)をベンチマークとして比較した。さらに、本研究では単純な経験的プライバシー評価手法を開発し、本DPパイプラインの高い耐性を実証した。実験結果から、Uraniaがユーザーのプライバシーを厳格に保持しつつ、意味のある対話インサイトを効果的に抽出できること、すなわちデータの有用性とプライバシー保護のバランスを良好に達成できることを示した。