大規模言語モデル (LLM) の急速な発展に伴い、LLM がもたらす可能性のあるリスクについて心配する人が増えています。そのため、大型モデルをめぐる「無難かつ単色」の方向性が大きな注目を集めている。
100PoisonMpts は、大規模言語モデル ガバナンスのための業界初のオープンソース中国語データ セットであり、「AI 用の 100 本の毒」の注釈エンジニアの最初のバッチです。アノテーターはそれぞれ、偏見や差別的な回答を誘発する100のトリッキーな質問をし、大規模モデルの回答にアノテーションを付けることで、AIによる「中毒」と「解毒」の攻撃と防御を完成させた。フィールドデータの最初のバッチは、AIの反差別、共感、熟慮の表現およびその他の目標に焦点を当てており、法学、心理学、子供の教育、アクセシビリティ、冷静な知識、親密さ、環境正義などの側面をカバーしており、提起された質問も含まれています。専門家による回答、専門家は独自の回答または承認された回答を作成します。
研究チームは、専門原理に基づく大規模モデルの自己整合の研究を検討しました。具体的な方法と実験分析については、技術レポート「専門原理に基づく大規模モデルの自己整合の研究」を参照してください。リンク
研究チーム安全性と責任感の2つの評価基準に基づく中国における大規模モデルレベルの値を評価するためのベンチマークが提案されています。具体的な内容については、論文「CVALUES: 安全性から責任まで中国の大規模言語モデルの価値の測定」を読むことをお勧めします。リンク
做种 1
下载中 0
已完成 52
总下载 350