ApolloCorpora は、深センビッグデータ研究所と香港中文大学の研究チームが共同で構築した多言語医療データセットです。このデータセットは、英語、中国語、ヒンディー語、スペイン語、フランス語、アラビア語を含む、世界 61 億人が話す 6 つの主要言語をカバーしています。
データ収集には、書籍、臨床ガイドライン、百科事典、論文、フォーラム、試験が含まれます。データ処理の観点から、研究者らは元のトレーニング前コーパスを質問と回答のペアに変換して、モデルの医療機能を強化しました。 ApolloCorpora は、異なる文化や医療システムに適応するために、症状の診断、薬剤名、コミュニケーション用語、医療行為の基準などのローカライズされた機能にも重点を置いています。このデータセットは、多言語医療 AI モデルの開発と評価のための強固な基盤を提供し、医療 AI テクノロジーの世界的な適用の促進に役立ちます。
做种 2
下载中 1
已完成 70
总下载 77