Weekly Editor's Picks|オープンソースの MathPile 数学的推論コーパス、謝和眼科が AI を活用して 13 の眼底疾患の検出を支援

最近、上海交通大学の生成人工知能研究所 (GAIR) は、オープンソースの MathPile は、数学分野向けに特別に調整された高品質で多様な事前トレーニング データ セット、およびその商用バージョン MathPile-Commercial です。hyper.ai 公式 Web サイトからダウンロードできるようになりました。他にも次のようなものがあります MathVista 、Math23K およびその他の人気のある数学データセットがあなたの使用を待っています~
2 月 19 日から 2 月 23 日までの hyper.ai 公式 Web サイトの更新の概要:
* 高品質の公開データセット: 10
※AI4S紙ケース:4枚
* 人気のある百科事典のエントリ: 10
公式ウェブサイトにアクセスしてください:ハイパーアイ
公開データセットの選択
1. MathPile 数学的推論の事前トレーニング コーパス
上海交通大学の生成人工知能研究室は、MathPile データセットを開始しました。これは、数学分野に特化した高品質で多様な事前トレーニング コーパスのセットで、約 95 億のトークンが含まれており、大規模モデルの数学的推論の能力を向上させるように設計されています。
直接使用します:
https://hyper.ai/datasets/29543
2. MathPile-商用数的推論事前学習コーパス(商用版)
MathPile-Commercial は、MathPile の商用利用を禁止する文書を削除した MathPile の商用版 (最新バージョン v0.2) です。具体的には、研究チームは、arXiv ソースのメタデータ内のライセンス情報を活用し、キーワード マッチングを他のソースに適用して、ソース データを非営利目的でテストしました。
直接使用します:
https://hyper.ai/datasets/29545
3. AIが生成した画像データセット
このデータセットには、Copilot によって生成された少年の 19 枚の画像が含まれています。 Copilot は、想像力豊かで革新的なコンテンツを作成する AI コンパニオンです。これらの画像は、顔の表情、ポーズ、背景、照明、オクルージョンが異なるため、顔と姿勢の検出タスクに適しています。
直接使用します:
https://hyper.ai/datasets/29527
4. AI によって生成された多様な肖像画データセット
このデータセットには、高度な AI アルゴリズムによって慎重に作成された 140 枚の高品質画像が含まれており、そのうち 70 枚の女性のポートレートと 70 枚の男性のポートレートが含まれます。このデータセット内の各画像は、人間の外見の複雑さを模倣する AI の驚くべき能力を示しています。
直接使用します:
https://hyper.ai/datasets/29529
5. THUCニュース 中国語テキスト分類データセット
THUCNews は、2005 年から 2011 年までの新浪ニュース RSS 購読チャネルの履歴データ フィルタリングに基づいて生成されます。これには、740,000 件のニュース ドキュメント (2.19 GB) が含まれており、すべて UTF-8 プレーン テキスト形式で保存されています。研究チームは独自の新浪ニュース分類システムに基づいて、金融、宝くじ、不動産、株、家庭、教育、テクノロジー、社会、ファッション、時事、スポーツ、星占い、ゲーム、エンターテイメントの14の分類候補カテゴリーを再統合して分類した。
直接使用します:
https://hyper.ai/datasets/29521
6. ShareGPT 90k 中国語と英語のバイリンガル ヒューマン マシンの質問と回答のデータ セット
ShareGPT-中国語-英語-90k は、中国語と英語の対訳の高品質なヒューマン マシンの質問と回答のデータ セットで、実際の複雑なシナリオにおけるユーザーの質問データをカバーします。このデータセットは、高品質の対話モデルをトレーニングするために使用できます。
直接使用します:
https://hyper.ai/datasets/29523
7. SMP-2017 中国語会話意図認識データセット
このデータ セットは、SMP2017 中国語ヒューマン コンピュータ対話技術評価 (ECDT) タスク 1 データ セットです。このレビューは、中国の人間とコンピュータの対話システムに関連する研究の開発を促進することを目的としています。
直接使用します:
https://hyper.ai/datasets/29515
8. Toutiao テキスト分類データ セット
このデータセットは、Toutiao 中国語ニュース (短文) 分類データセットです。データソースはToutiaoクライアントです。 2018 年 5 月に収集された、合計 15 のカテゴリと 382,688 件のテキストが含まれています。
直接使用します:
https://hyper.ai/datasets/29517
今週更新されたその他のデータセットについては、次のサイトをご覧ください。:
ScienceAI 論文ケース選択
1. 謝和眼科が主導し、5 つの眼科センターが連携して AI を活用して 13 の眼底疾患の検出を支援します。
眼疾患の診断は画像認識に大きく依存しており、眼科という職業はディープラーニングなどのテクノロジーの応用に非常に適しています。眼底疾患の診断におけるディープラーニングの潜在的価値をさらに探るため、北京連合医科大学病院眼科部長の陳友新氏の主導のもと、全国の5つの眼科センターが北京知源匯図科技有限公司と協力した。 , Ltd.と中国人民大学情報学部のLi Xirong教授は、ディープラーニングシステムを共同開発することを発表しました。このシステムは、主治医の眼科医による診断の一貫性を約 12% 向上させるのに役立ち、13 の主要な眼底疾患を自動検出するための新しい方法を提供します。関連論文は雑誌「Nature」に掲載されています。
レポート全体を表示します。
2. 50,000 人以上が参加しました。浙江大学の呉希峰教授のチームによる新しい研究: 健康はオフィスの緑化のレベルに関係しています。
生態環境が人間の健康に与える影響は微妙です。浙江大学公衆衛生学部のウー・シーフェン教授の研究グループは、畳み込みニューラルネットワークモデルを使用して、ストリートビュー画像の緑の眺め指数に基づいて目に見える緑の露出を評価し、その後、目に見える緑のレベルとの間に関係があるかどうかを調査しました。職場と大人のメタボリックシンドロームとの関連性。研究チームは、ロジスティック回帰モデルを使用して、杭州市の成人5万人以上の労働環境の屋外視覚緑化レベルを評価し、両者の間に有益な関係があることを確認した。関連する結果はジャーナル「Environment International」に掲載されています。
レポート全体を表示します。
3. 上海交通大学 AI4S チームは「インテリジェント科学施設」の概念を提案し、学際的な AI 科学研究助手を設立
上海交通大学人工知能研究所 科学のための AI ヤン・シャオカン教授らチームのメンバーは、科学分野の大型モデル、生成シミュレーションと反転、自律型インテリジェント無人実験、大規模で信頼できる科学研究協力などの革新的な機能を形成するためのインテリジェント科学施設の構築コンセプトを提案した。関連する研究結果は「中国科学院紀要」に掲載されている。
レポート全体を表示します。
4. Amazon エンジニアが厳選した 40 以上の LLM 論文の要約
ますます多くの企業や伝統的な産業が、大規模な言語モデルを自社のビジネスに適用する方法を模索し始めています。また、市場の需要が急速に拡大しているため、arXiv などのプラットフォームに関する研究もさらに深まり、革新されています。ますます頻繁に発生します。誰もが価値の高い論文をより早く検索できるようにするために、Amazon エンジニアのユージン・ヤンらは言語モデル論文のリーディングリストを作成し、最先端の論文を共有し続けています。現在、40 以上の質の高い論文が編集されています。
論文の概要全体を表示します。
人気のある百科事典の項目を厳選
1. 再現率 再現率
2. ヒューマンフィードバック強化学習 RLHF
3. 汎用人工知能AGI
4. RAG を生成するための検索機能の強化
5. 神経放射線場 NeRF
ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。
上記は、今週編集者が選択したすべてのコンテンツです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、お気軽にメッセージを残すか、投稿してお知らせください。
また来週お会いしましょう!
HyperAIについて Hyper.ai
HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。
* 1,200 を超える公開データセットに対して国内の高速ダウンロード ノードを提供
* 300 以上の古典的で人気のあるオンライン チュートリアルが含まれています
* 100 以上の AI4Science 論文ケースを解釈
* 500 以上の関連用語クエリをサポート
*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします
学習の旅を始めるには、公式 Web サイトにアクセスしてください。