2ヶ月前
CBLUE: 中国のバイオメディカル言語理解評価ベンチマーク
Ningyu Zhang; Mosha Chen; Zhen Bi; Xiaozhuan Liang; Lei Li; Xin Shang; Kangping Yin; Chuanqi Tan; Jian Xu; Fei Huang; Luo Si; Yuan Ni; Guotong Xie; Zhifang Sui; Baobao Chang; Hui Zong; Zheng Yuan; Linfeng Li; Jun Yan; Hongying Zan; Kunli Zhang; Buzhou Tang; Qingcai Chen

要約
人工知能(AI)と最近のバイオメディカル言語理解の進歩は、徐々に医療実践を変革しています。バイオメディカル言語理解のベンチマークの開発とともに、AIアプリケーションが医療分野で広く利用されるようになりました。しかし、多くのベンチマークは英語に限定されており、英語での成功を他の言語でも再現することが困難となっています。この研究方向を促進するために、我々は実世界のバイオメディカルデータを集め、初めての中国語バイオメディカル言語理解評価(CBLUE)ベンチマークを提示します。これは、固有表現認識、情報抽出、臨床診断正規化、単文/文対分類などの自然言語理解タスクの集合体であり、モデル評価、比較、分析用のオンラインプラットフォームも提供しています。これらのタスクにおける評価を確立するため、現在利用可能な11種類の事前学習済み中国語モデルを使用した経験的な結果を報告します。実験結果は、最先端のニューラルモデルが人間の上限よりも遥かに劣っていることを示しています。当社のベンチマークは以下のURLで公開されています:\url{https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414&lang=en-us}。