現在、AI分野における金融モデルに関する研究結果の多くは、公知に基づいて訓練されていますが、実際の金融実務においては、この公知の現在の市場に対する解釈可能性が著しく不十分であることが多々あります。理想的な大規模財務モデルは、ニュースやデータ イベントを理解し、主観的および定量的な観点の両方からイベントを即座に評価できる必要があります。
Deepmoney はこの目的のために生まれました。金融分野への投資に焦点を当てた大規模な言語モデル プロジェクトです。 hyper.ai の公式 Web サイトではオンライン ランニング チュートリアルを提供しています。ぜひ体験してください。
3 月 18 日から 3 月 22 日までの hyper.ai 公式 Web サイトの更新の概要:
* 高品質の公開データセット: 10
* 高品質なチュートリアルのセレクション: 3
* コミュニティ記事の選択: 3 記事
* 人気のある百科事典のエントリ: 10
公式ウェブサイトにアクセスしてください:ハイパーアイ
公開データセットの選択
1. OpenHermesPreferences: AI 嗜好データセット OpenHermesPreferences データセットは、Hugging Face H4 チームと協力して Argilla によって作成され、約 100 万個の AI 嗜好データが含まれています。このデータセットは、直接的な好みの最適化などの手法を通じて、好みのモデルをトレーニングしたり、言語モデルを調整したりするために使用できます。
直接使用します:
2. LongAlign 10K 大規模モデルの長いコンテキスト アライメント データ セット
LongAlign-10k は、長いコンテキスト アラインメント タスクで大規模モデルが直面する課題に対処するために設計された清華大学によって提案されたデータ セットで、8k ~ 64k の長さの 10,000 個の長い命令データが含まれています。このデータセットは、長いコンテキストにおける大規模モデルのパフォーマンスと、10,000 ~ 100,000 の長さのタスク命令に従う能力を評価するように設計されています。
直接使用します:
3. CyberMetric 大型モデルネットワークセキュリティ評価データセット
CyberMetric データセットには 10,000 の質問が含まれており、大規模なモデル全体でサイバーセキュリティの知識を包括的に評価するように設計されています。データセットはさまざまな大規模モデルを使用して作成され、サイバーセキュリティ分野の専門家によって検証されて、その関連性と正確性が保証されています。
直接使用します:
4. 2020年中国地上太陽光発電所10メートル全国縮尺地図データセット
中国農業大学は、中国科学院地理科学天然資源研究所と協力して、中国における高解像度のオープンソースの全国地上太陽光発電所分布データの不足に対応する一連の国家地図作成手法を開発した。そして、2020 年の全国 10 メートル解像度レート地上太陽光発電所分類データセットのリリースに成功しました。この結果は、我が国の太陽光発電所の空間分布特性を正確に明らかにするだけでなく、89%の分類精度により、エネルギー計画、土地利用、リモートセンシングモニタリング、環境研究、その他の分野に貴重なデータリソースを提供します。この動きは、この分野における国内データのギャップを埋めるものであり、関連研究にとって非常に重要です。
直接使用します:
5. 作物病害分類 作物病害分類画像データセット
このデータセットは、キャッサバ青枯病(CBB)、キャッサバ褐条病(CBSD)、キャッサバ緑斑病(CGM)、およびキャッサバモザイク病(CMD)の5種類の作物病害の分類画像です。 )と健康。機械学習モデルをトレーニングして植物の病気を検出したり、自動植物診断アルゴリズムを開発したりするために使用できます。
直接使用します:
6. トマトの葉の病気の検出 トマトの葉の病気の画像検出データセット
このデータセットは、トマトの葉の病気画像検出データセットです。画像は、健全、細菌性斑点、初期枯病、健全、後期枯病、葉カビ、対象斑点、および黒斑点のカテゴリに分類されています。画像には、YOLO v5 PyTorch 形式を使用して注釈が付けられます。
直接使用します:
7. AMAZON REVIEWS 2023 大規模な Amazon レビュー データセット
AMAZON REVIEWS 2023 は、2023 年に McAuley Labs によって収集された大規模な Amazon レビュー データセットです。これには、33 の異なるカテゴリをカバーする 5 億 7,000 万件を超えるレビューと 4,800 万点以上の商品が含まれています。
直接使用します:
8. DiFF拡散モデルにより生成された顔偽造データセット
DiFF は、山東大学、シンガポール国立大学などが共同開発した高品質で大規模な顔偽造画像データセットで、拡散モデルに基づいて生成されており、50 万枚以上の画像が含まれています。このデータセットは、顔の偽造検出、ディープフェイクによる敵対的な攻撃と防御、およびその他の関連するコンピューター ビジョン タスクのトレーニングに適しています。
直接使用します:
9. MIntRec2.0 マルチモーダル意図認識ダイアログ データセット
MIntRec2.0 は、清華大学などが提案した大規模なマルチモーダル マルチパーティ ベンチマーク データ セットで、特に会話内の意図を特定し、意図的でないコンテンツを検出するために使用されます。以前の MIntRec と比較して、MINtRec2.0 のデータ量は 15K に増加し、30 のインテント カテゴリをカバーし、テキスト、ビデオ、オーディオなどのモーダルを含む約 9.3K のインテント内と 5.7K のインテント外の注釈付き文が含まれています。 。
直接使用します:
10. ApolloCorpora 多言語医療データセット
ApolloCorpora は、深センビッグデータ研究所と香港中文大学の研究チームが共同で構築した多言語医療データセットです。このデータセットは、英語、中国語、ヒンディー語、スペイン語、フランス語、アラビア語を含む、世界 61 億人が話す 6 つの主要言語をカバーしています。
直接使用します:
その他の公開データセットについては、次のサイトをご覧ください。:
選択された公開チュートリアル
1. Deepmoney-34b-full をオンラインで実行します
Deepmoney は、金融分野への投資に焦点を当てた大規模な言語モデル プロジェクトです。 Deepmoney-34b-full は、01-ai オープンソース Yi-34B-200K モデルに基づいてトレーニングされており、pt (フル パラメーター トレーニング) と sft (lora 微調整) の 2 つの段階に分かれています。 Super Neural 公式 Web サイトでワンクリックでクローンを作成して使用できるようになりました。
オンラインで実行:
2. Deepmoney-miqu-70b をオンラインで実行します
このモデルは、huggingface.co の miqu-1-70b-sf に基づいてトレーニングされており、sft (lora 微調整) を実行するだけで、Super Neural 公式 Web サイトでワンクリックで複製して使用できるようになります。
オンラインで実行:
3. Deepmoney-67b-full をオンラインで実行します
このモデルは、deepseek-ai のオープンソース deepseek-llm-67b-base に基づいてトレーニングされており、pt (lora training) と sft (lora training) の 2 つの段階に分かれており、クローンして Super で使用できるようになりました。 Neural公式ウェブサイトをワンクリックで。
オンラインで実行:
注目のコミュニティ記事
今年の 2024 GTC AI カンファレンスは予定通り開催され、3 月 18 日から 3 月 21 日まで、900 以上のカンファレンスと 20 以上の技術講演が行われました。この記事は、GTC での Huang Jenxun の基調講演の要約です。
レポート全体を表示します。
2. 33 分で 120,000 個の炭素回収候補物質を生成、米国のアルゴンヌ国立研究所は MOF のイノベーションを加速する生成 AI フレームワークをリリース
米国のアルゴンヌ国立研究所の研究チームは、新しい MOF 構造をランダムに生成して組み立て、分子動力学シミュレーションを通じて安定性の高い MOF 構造をスクリーニングし、クリスタル グラフ ニューラル ネットワーク (CGCNN) を使用できる生成 AI フレームワーク GHP-MOFsassemble を提案しました。巨大正準系モンテカルロ シミュレーション (GCMC) を使用して、MOF の二酸化炭素吸着能力をテストしました。関連論文は「Nature」に掲載されています。
レポート全体を表示します。
3. プラズマティアリングのリスクを300ミリ秒前に予測、プリンストン大学がAIコントローラーをリリース
プリンストン大学の研究者は、血漿の潜在的な引き裂きリスクを 300 ミリ秒前に予測し、適切なタイミングで介入できる適応予測および制御用の AI コントローラーを開発しました。関連する結果が「Nature」に掲載されました。
レポート全体を表示します。
人気のある百科事典の項目を厳選
1. データグラビティ
2. 大規模マルチタスク言語理解 (MMLU)
3. 専門家の混合(MoE)
4. 量子ニューラルネットワーク 量子ニューラルネットワーク
5. 神経放射フィールド (NeRF)
ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。
ステーションBのライブブロードキャストプレビュー
日付 | 時間 | コンテンツ |
3月25日 月曜日 | 10:0017:00 | MIT ディープ ラーニング コース 2020MIT ディープ ラーニング コース 2021 |
3月26日火曜日 | 10:00 | Python API 開発 - 初心者向け総合コース |
3月27日水曜日 | 10:0014:00 | SQL チュートリアル — 初心者コース 生成 AI 完全コース |
3月28日(木) | 21:00 | 初心者向けのフラッターコース |
3月29日金曜日 | 10:00 | 初心者向けのフラッターコース |
3月30日土曜日 | 10:00 | ハーバード CS50 — Python 人工知能コース |
3月31日(日) | 10:00 | ディープラーニングのための PyTorch を 1 日で学ぶ |
スーパー ニューラル TV ステーションは、7 時間 24 日中断のない生放送を放送しており、ワンクリックで AI 分野の「電子マスタード」を収穫できます。
http://live.bilibili.com/26483094
上記は、今週編集者が選択したすべてのコンテンツです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、お気軽にメッセージを残すか、投稿してお知らせください。
また来週お会いしましょう!
HyperAIについて Hyper.ai
HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。
* 1,200 を超える公開データセットに対して国内の高速ダウンロード ノードを提供
* 300 以上の古典的で人気のあるオンライン チュートリアルが含まれています
* 100 以上の AI4Science 論文ケースを解釈
* 500 以上の関連用語クエリをサポート
*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします
学習の旅を始めるには、公式 Web サイトにアクセスしてください。