PsyDTCorpus は、華南理工大学未来技術学部 - 広東省デジタルツイン重点研究室によって 2024 年に開始された心理カウンセラー向けのデジタル ツイン データ セットです。このデータセットの中心的な目標は、特定の心理カウンセラーの言語スタイルとカウンセリング技術をシミュレートして、心理カウンセラーの大規模なデジタル ツイン モデルである SoulChat2.0 の開発とトレーニングをサポートすることです。関連する論文結果は「SoulChat: マルチターンの共感会話による微調整を通じて、LLM の共感、傾聴、快適能力を向上させる”。
PsyDTCorpus データセットは、特定の心理カウンセラーの実際の複数ラウンドの相談ケースに焦点を当てており、5,000 の単一ラウンドの相談サンプルに基づいてデジタル ツイン データ合成を実行し、最終的にカウンセラーの言語スタイルと療法を含む 5,000 の高品質のメンタルヘルス対話データを取得します。技術の応用方法。このうち、4,760 個のサンプルがトレーニング セットとして使用され、240 個のサンプルが複数のテスト サンプルに分割されます。データ セットのラウンドの総数は 90,365 で、そのうちテスト セットのラウンドは 4,311 です。
このデータ セットは、実際の心理カウンセラーの言語スタイル、カウンセリング技術、ビッグ 5 の性格特性を組み合わせた革新的なデータ生成フレームワークを使用して、単一の会話をシミュレートするデータを生成します。このフレームワークを通じて、研究チームは、特定のカウンセラーの言語スタイルとカウンセリング技術の応用を効果的に特徴付ける複数ラウンドの会話データを生成することができました。このプロジェクトでは、生成されたマルチターン対話データの総数は 90,365 ラウンドに達し、対話サンプルあたり平均 18 ラウンドになりました。
PsyDTCorpus は、会話技術、状態と態度、関係構築、治療技術の 4 つの専門的側面について手動による評価と比較を実施しました。その結果、これらの側面で他のデータセットと比較して大幅な改善が見られ、実際のデータを使用することの有効性が証明されました。心理カウンセラー 少数の相談事例から質の高いマルチラウンドのメンタルヘルス会話データを構築する可能性。
做种 1
下载中 0
已完成 12
总下载 44