号外!号外!老祥記の「機密文書」が公開!
最近、老祥鶏は20万語にも及ぶ「老祥鶏料理トレーサビリティレポート」を完全に公開し、原材料の供給源から調理の詳細まですべてが明らかになりました。現在、Super Neuro でダウンロードできるようになりました。気に入ったものがないか探しに来てください。
PS: 編集者が聞きたいのですが、レポートを覆した場合に問題を提起できますか?
4 月 15 日から 4 月 19 日までの hyper.ai 公式 Web サイトの更新の概要:
* 高品質の公開データセット: 10
* 高品質なチュートリアルのセレクション: 2
* コミュニティ記事の選択: 3 記事
* 人気のある百科事典のエントリ: 5
公式ウェブサイトにアクセスしてください:ハイパーアイ
公開データセットの選択
1. 鶏料理仲間のトレーサビリティレポート
このデータセットは、老祥鶏の現在の 1,218 店舗のレストラン、合計 226 SKU、873 種類の原材料、305 のサプライヤーをカバーしています。老祥鶏は、合計20万語を含む677ページの「老祥鶏料理トレーサビリティ報告書」を完全公開した。
直接使用します:https://go.hyper.ai/nbESl
2. Sora Dataset プロジェクトのビデオ データ セットを開く
Open-Sora-Plan は、OpenAI の Sora (T2V モデル) を再現するために設計されたオープンソース プロジェクトです。このデータセットは、プロジェクトのビデオ データセットです。研究チームは、CC0 ライセンスに基づいてオープンソース Web サイトから 40,258 本のビデオをスクレイピングしました。すべてのビデオはウォーターマークなしの高品質で、そのうち約 60% が風景データです。
直接使用します:https://go.hyper.ai/75Ftc
3. MMVP マルチモーダル モーション キャプチャ データ セット
このデータセットには、走る、縄跳び、立ち幅跳びなど、大規模で素早い人間の動きが多く含まれており、合計 44,000 を超える同期 RGBD フレームと 16 人の被験者の圧力データが収集されました。
直接使用: https://go.hyper.ai/4edeR
4. OpenWebMath オープンネットワーク数学トレーニングデータセット
OpenWebMath は、インターネットからの高品質な数学テキストを主に含むデータセットです。 Common Crawl 上の 200B を超える HTML ファイルからフィルタリングおよび抽出され、合計 147 億のトークンを含む 630 万のドキュメントのセットが生成されます。 OpenWebMath は、大規模な言語モデルの事前トレーニングと微調整のために設計されています。
直接使用: https://go.hyper.ai/zjytq
5. Proof-Pile-2 数学的データセット
Proof-Pile-2 は、550 億件の数学的および科学的文書を含むトークン データセットです。科学論文、数学関連の Web コンテンツ、および数学コードを組み合わせたもので、2023 年 4 月時点の知識が含まれています (リーン証明ステップの特定のサブセットを除く)。このデータセットは、Llemma 7B および Llemma 34B モデルをトレーニングするために作成されました。
直接使用: https://go.hyper.ai/aant8
6. ミザール数学データセット
Mizar 数学ライブラリには、論理、代数、解析、幾何学などの幅広い数学分野をカバーする、形式化された数学の定理と証明が含まれています。このライブラリの目標は、自動化された定理証明と形式的推論のための強固な数学的基盤を提供することです。
直接使用: https://go.hyper.ai/IJeHa
7. イザベル対訳コーパス
Isabelle Parallel Corpus (IPC) は、Isabelle 文書の並列コーパスを作成するためのコミュニティ主導の取り組みです。 IPC は、Isabelle の形式的な文書 (定理、補題、定義など) を自然言語に対応するテキストと組み合わせます。
直接使用: https://go.hyper.ai/BEADY
8. Fruits Dataset 果物の鮮度分類データセット
このデータセットには、リンゴ、オレンジ、バナナの 3 つの果物の画像が含まれています。各画像には果物の種類と鮮度ステータスに応じてラベルが付けられ、分類や物体検出などの教師あり学習タスクが可能になります。
直接使用します:https://go.hyper.ai/b7TNx
9. DeepFruit果物画像分類データセット
DeepFruit は、ムハンマド ビン ファハド王子大学と他の研究機関が共同でリリースした果物画像分類データセットです。このデータセットには、8 つの異なる果物セットの組み合わせに基づく 21,122 個の果物画像が含まれています。果物の検出、識別、分類の分野の研究だけでなく、カロリー推定などの革新的なアプリケーションにも使用できます。
直接使用します:https://go.hyper.ai/ut4BA
10. 15 動物画像分類データセット
このデータセットには 15 匹の動物の画像フォルダーが含まれており、すべての画像のサイズは 224X224 で、画像分類に適しています。画像は Web からダウンロードされ、OpenCV ライブラリを使用して前処理 (サイズ変更および拡張) されました。したがって、このデータセットは、さらにデータを拡張することなく、トレーニングに直接使用できます。
直接使用します:https://go.hyper.ai/tgMtH
その他の公開データセットについては、次のサイトをご覧ください。:
選択された公開チュートリアル
1. オンラインチュートリアル|敷居の低い導入! SUPIR はあらゆる種類の画像のぼやけを修正することに特化しており、テキストの説明を理解して改良することもできます。
画像修復ツール SUPIR は、StableDiffusion-XL (SDXL) とモデル拡張テクノロジーを利用しており、機械学習とマルチモーダル手法を通じて画像修復の品質を大幅に向上させることができます。このチュートリアルでは、複雑な事前準備を必要とせずに、ワンクリックで写真を修復できる環境がセットアップされています。
オンラインで実行:https://go.hyper.ai/3RBMH
2. Ollama と Open WebUI を使用して大規模なモデルをデプロイする
このチュートリアルは、Ollama + Open WebUI のワンクリック実行パッケージです。大規模なモデルを実行するには、コマンドを段階的に入力するだけです。現在含まれているモデルは、qwen 1.5 14b、qwen 1.5 32b、llava 1.6 34b です。自己アップロードと新しいモデルの使用をサポートしています。
オンラインで実行:https://go.hyper.ai/FwREK
注目のコミュニティ記事
1. 触媒設計を加速するために、上海交通大学の He Yulian の研究グループは、AutoML に基づいた自動知識抽出を実施しました。
上海交通大学JIのHe Yulian助教授の研究グループは、Eadsを決定する重要な物理量を決定する新しい方法、すなわち高スループットから知識を実現する自動機械学習に基づく特徴削除実験を提案した。密度汎関数理論データベースの自動抽出。この記事は、研究の詳細な解釈と共有です。
レポート全体を表示します。https://go.hyper.ai/LEVS1
2. 世界 No.1 のシステムを破り、80 か国以上をカバーする Google の洪水予測モデルが再び Nature に掲載
Google チームは、機械学習に基づいた河川予測モデルを開発しました。このモデルの予測能力は、世界最先端の洪水予測システムである GloFAS よりも優れており、80 か国以上をカバーできます。この記事は研究の共有と解釈です。
記事全文を表示:https://go.hyper.ai/V4r4i
3. 20% リチウム電池寿命予測の精度が向上!上海交通大学のチームが、ラベルなしデータに隠された情報を抽出する半教師あり学習手法 PBCT を発表
上海交通大学の研究チームは、リチウム電池のライフサイクル全体で生成される低コストで豊富なラベルなしデータを最大限に活用することで、隠された情報を抽出することで、理解が深まる半教師あり学習手法PBCTを提案しました。リチウム電池 20% では寿命予測精度が向上しました。この記事は研究の共有と解釈です。
レポート全体を表示します。https://go.hyper.ai/2EQGa
人気のある百科事典の項目を厳選
1. エポック
2. 学習率 学習率
3. 対応のある t 検定対応のある t 検定
4. 普及モデル 普及モデル
5. 大規模言語モデル大規模言語モデル
ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。
ステーションBのライブブロードキャストプレビュー
Google は最近、2024 I/O Developer Conference を 5 月 14 日に開催すると発表しました。皆様が Google についてより深く理解できるよう、スーパーニューラル生放送室は来週月曜日から、「Google トピック」ビデオが 24 時間 365 日ライブ配信されます。関与: 長年にわたる Google I/O 記者会見、幹部インタビュー、関連ドキュメンタリー、その他の豊富なコンテンツ。
次の表は、編集者が全員に向けて選択したコンテンツのプレビューです↓↓↓
日付 | 時間 | コンテンツ |
4月15日 月曜日 | 18:00 | 長年にわたる Google I/O カンファレンス |
4月16日火曜日 | 18:00 | Google Cloud NEXT の過去のカンファレンス |
4月17日水曜日 | 18:00 | TIME100 サンダー・ピチャイ氏インタビュー |
4月18日(木) | 18:00 | グーグルCEO、米中の人工知能競争について語る |
4月19日金曜日 | 18:00 | アルファ碁ドキュメンタリー |
4月20日土曜日 | 18:00 | Google ドキュメンタリーの背後にある創設者の物語 |
4月21日日曜日 | 18:00 | BBC ドキュメンタリー Google のない世界 |
スーパー ニューラル TV ステーションは、7 時間 24 日中断のない生放送を放送しており、ワンクリックで AI 分野の「電子マスタード」を収穫できます。
http://live.bilibili.com/26483094
上記は、今週編集者が選択したすべてのコンテンツです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、お気軽にメッセージを残すか、投稿してお知らせください。
また来週お会いしましょう!
HyperAIについて Hyper.ai
HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。
* 1,200 を超える公開データセットに対して国内の高速ダウンロード ノードを提供
* 300 以上の古典的で人気のあるオンライン チュートリアルが含まれています
* 100 以上の AI4Science 論文ケースを解釈
* 500 以上の関連用語クエリをサポート
*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします
学習の旅を始めるには、公式 Web サイトにアクセスしてください。