HyperAI超神経

Orpheus TTS は機械的な感覚に別れを告げ、リアルタイムの会話は友達同士のように自然です。 OpenCodeReasoningは膨大なデータをオープンソース化し、プログラミングの推論の新たなレベルを解き放ちます

特色图像

近年、テキスト読み上げモデルは大きく進歩しましたが、既存のモデルでは実際の応用において依然として多くの制限があります。ほとんどのモデルは単一の音色の音声しか生成できず、豊かな感情を持った音声を生成することはできません。この課題に対処するために、Canopy Labs はテキスト読み上げモデル Orpheus-TTS をオープンソース化しました。

Orpheus-TTS は、自然で感情的な、人間に近いレベルの音声を生成できます。ゼロサンプル音声複製機能を備えており、事前トレーニングなしで特定の音声を模倣できます。ユーザーはタグを使用して音声の感情表現を制御し、音声のリアリティを高めることができます。このモデルのレイテンシは約 200 ミリ秒と低く、ユーザーがリアルタイム アプリケーションを実装するのに役立ちます。

現在のところ、HyperAIがオンラインになりましたOrpheus TTS: 多言語テキスト読み上げモデルぜひお試しください〜

オンラインでの使用:https://go.hyper.ai/FGexv

5月26日から5月29日まで、hyper.ai公式サイトが更新されました。

* 高品質の公開データセット: 10

* 高品質のチュートリアル: 12

* コミュニティ記事の選択: 3 記事

* 人気のある百科事典のエントリ: 5

* 6月に締め切りを迎えるトップカンファレンス:3

公式ウェブサイトにアクセスしてください:ハイパーアイ

公開データセットの選択

1. EMMAマルチモーダル推論ベンチマークデータセット

このデータセットは、有機化学 (42%)、数学 (32%)、物理学 (6%)、プログラミング (20%) の分野におけるマルチモーダル推論タスクに重点を置いています。 2,788 の質問が含まれており、そのうち 1,796 は新しく作成されたサンプルです。きめ細かなタスク分割をサポートし、画像とテキストの共同理解能力の向上を目指します。データ タスクの種類には、化学反応シミュレーション、数学的グラフィックス推論、物理パス トレーシング、プログラミング視覚化などがあります。

直接使用します:https://go.hyper.ai/HtL1N

データセット内のさまざまな分野とそのサブタスクの割合

2. 表情検出 YOLO形式の表情検出データセット

このデータセットは、ターゲット検出および分類モデルのトレーニングと評価用に設計された、感情認識用の YOLO 形式のデータセットです。データセットには、基本的な感情タイプと複雑な感情タイプの両方を考慮した、9 つのカテゴリの表情を網羅した合計約 70,000 枚の画像が含まれています。コンピューター ビジョンでの感情認識、人間とコンピューターの相互作用、メンタル ヘルス分析、インテリジェント モニタリングなどのアプリケーション シナリオに適しています。

直接使用します:https://go.hyper.ai/K6iIH

データセットの例

3. GeneralThought-430K 大規模推論データセット

このデータセットには、数学、コード、物理学、化学、自然科学、人文社会科学、工学技術などの分野の問題を網羅した 430,000 件のサンプルが含まれており、複数の推論モデルからの質問、参照回答、推論軌跡、最終回答、その他のメタデータが含まれています。

直接使用します:https://go.hyper.ai/xdSzd

4. S1k-1.1 数学的推論データセット

このデータセットは、1,000 個のサンプルを含む数学の問題の推論データセットです。代数、幾何学、確率など複数の数学分野を網羅し、数学の問題と推論の軌跡に焦点を当てています。各サンプルには、問題の説明、問題解決の手順、回答、DeepSeek r1 によって生成された推論の軌跡が含まれています。

直接使用します:https://go.hyper.ai/MtvcV

5. HPAヒトタンパク質アトラスデータセット

このデータセットは、Human Protein Atlas (HPA) データベースのデータで構成されており、さまざまな細胞小器官内の何千ものヒトタンパク質の空間分布をカバーする、多数の高解像度共焦点顕微鏡画像が含まれています。これは、タンパク質の細胞内局在研究のための重要な公開リソースです。モデルの公正な評価。

直接使用します:https://go.hyper.ai/Dhuwt

6. ZeroSearch 質問応答データセット

このデータセットには、科学的知識、歴史的出来事、映画やテレビのエンターテインメント、地理、人文科学など、複数の分野を網羅した約 170,000 件のサンプルが含まれています。また、事実に関する質問、定義に関する質問、真偽に関する質問などもカバーしており、小規模および中規模の質問応答モデルのトレーニングに適しています。慎重に設計された質問と回答のペアを通じて、モデルの常識的な推論、事実の記憶、論理的推論機能を評価し、自然言語処理の分野に標準化されたトレーニングおよびテストのリソースを提供することを目的としています。

直接使用します:https://go.hyper.ai/OkvBx

7. SocialMaze 論理的推論ベンチマークデータセット

このデータセットは、マルチエージェント相互作用シナリオにおける隠れた役割の推論タスクに焦点を当てた社会的推論ベンチマーク データセットです。複雑な社会的環境における大規模言語モデル (LLM) の論理的推論、欺瞞検出、および複数ラウンドの対話理解機能を評価することを目的としており、LLM の社会的推論機能を研究するための標準化されたテスト プラットフォームを提供します。

直接使用します:https://go.hyper.ai/Cch64

8. OpenCodeReasoning プログラミング推論データセット

このデータセットは、大規模言語モデル (LLM) 用の高品質なプログラミング推論トレーニング データを提供し、コード生成と論理的推論機能の向上を促進することを目的としています。このデータセットには 735,255 個のサンプルが含まれており、28,319 個の固有のプログラミング問題をカバーしており、現在利用可能な最大の推論プログラミング データセットの 1 つです。

直接使用します:https://go.hyper.ai/ofjBJ

9. MLDR多言語文書検索データセット

データセットは 13 種類の言語をカバーしています。これは、Wikipedia、Wudao、mC4 多言語コーパスに基づいて構築された多言語の長い文書検索データセットです。複数言語にわたる長文テキスト検索タスクの研究開発を支援することを目的としています。

直接使用します:https://go.hyper.ai/Le0G8

10. MP-20-PXRD原子材料ベンチマークデータセット

データセットは、Materials Project データベースからサンプリングされた材料で構成され、ユニットセルには最大 20 個の原子が含まれます。これには 90%、7.5%、2.5% の比率でトレーニング、検証、テストに使用される 45,229 個のマテリアルが含まれています。

直接使用します:https://go.hyper.ai/bUKbv

選択された公開チュートリアル

今週は、質の高い公開チュートリアルを 4 つのカテゴリにまとめました。

* オーディオ合成チュートリアル: 5

* 画像生成チュートリアル: 3

* ビデオ合成チュートリアル: 2

* 数学的推論チュートリアル:2

オーディオ合成チュートリアル

1. Orpheus TTS: 多言語テキスト読み上げモデル

Orpheus-TTS は、自然で感情的な、人間に近いレベルの音声を生成でき、ゼロサンプル音声複製機能を備えており、事前のトレーニングなしで特定の音声を模倣できます。ユーザーはタグを使用して音声の感情表現を制御し、音声のリアリティを高めることができます。 Orpheus TTS は、約 200 ミリ秒の低遅延を実現しており、リアルタイム アプリケーションに適しています。

このチュートリアルでは、リソースとして単一の RTX 4090 カードを使用します。コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります。

オンラインで実行:https://go.hyper.ai/FGexv

デモの例

2. ACE-Step: 音楽生成の基本モデル

ACE-Step-v1-3.5B は、A100 GPU でわずか 20 秒で最大 4 分の音楽を合成します。これは、LLM ベースのベースラインよりも 15 倍高速であり、メロディー、ハーモニー、リズムのメトリックに関して優れた音楽の一貫性と歌詞の配置を実現します。さらに、このモデルは微細な音響の詳細を保持し、音声の複製、歌詞の編集、リミックス、トラック生成などの高度な制御メカニズムを可能にします。

このチュートリアルで使用されるコンピューティング リソースは、単一の RTX 4090 カードです。コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります。

オンラインで実行:https://go.hyper.ai/Qjxmu

デモの例

3. MegaTTS3のワンクリック展開

MegaTTS 3 は、最先端のゼロショット TTS 音声品質を実現し、アクセントの強さを非常に柔軟に制御できる革新的なスパース整列ガイド潜在拡散トランスデューサ (DiT) アルゴリズムを備えた TTS システムです。これは主に、入力テキストを高品質で自然で流暢な音声出力に変換するために使用されます。

このチュートリアルでは、単一の RTX 4090 カードを使用します。以下のリンクを使用してワンクリックで展開できます。

オンラインで実行:https://go.hyper.ai/rujKs

デモの例

4. Parakeet-tdt-0.6b-v2 音声認識

Parakeet-tdt-0.6b-v2 は、FastConformer エンコーダー アーキテクチャと TDT デコーダーに基づいており、一度に最大 24 分の英語のオーディオ クリップを効率的に書き起こすことができます。このモデルは、高精度で低遅延の英語音声文字変換タスクに重点を置いており、リアルタイムの英語音声テキスト変換シナリオ(顧客サービスの会話、会議記録、音声アシスタントなど)に適しています。

このチュートリアルでは、単一の RTX 4090 コンピューティング リソースを使用し、モデルは英語の音声認識のみをサポートします。

オンラインで実行:https://go.hyper.ai/pWmfu

デモの例

5. Dia-1.6B: 感情音声合成デモ

Dia-1.6B は、テキスト スクリプトから直接非常にリアルな会話を生成することができ、音声ベースの感情およびトーンのコントロールをサポートします。また、笑い声、咳、咳払いなどの非言語コミュニケーションの音を生成することもできるため、会話がより自然で鮮明になります。このプロジェクトでは、独自のオーディオ サンプルのアップロードもサポートされています。モデルはサンプルに基づいて類似の音声を生成し、ゼロサンプルの声紋複製を実現します。

このチュートリアルでは、単一の RTX 4090 カードのリソースを使用し、現在は英語生成のみをサポートしています。

オンラインで実行:https://go.hyper.ai/5J3lp

デモの例

画像生成チュートリアル

1. KV-Edit背景一貫性画像編集

KV-Edit は、元の画像と編集後の画像の背景の一貫性を厳密に維持し、オブジェクトの追加、削除、置換などのさまざまな編集タスクで優れたパフォーマンスを実現する、トレーニング不要の画像編集方法です。

このチュートリアルでは、単一の RTX A6000 カードを使用します。モデルをすぐに複製するには、以下のリンクをクリックしてください。

オンラインで実行:https://go.hyper.ai/wo2xJ

デモの例

2. サナ高解像度画像合成

Sana は、最大 4096 × 4096 解像度の画像を効率的に生成できるテキストから画像に変換するフレームワークです。 Sana は、強力なテキストと画像の位置合わせ機能を備え、高解像度、高品質の画像を非常に高速に合成できます。

このチュートリアルでは、デモンストレーションに Sana-1600M-1024px モデルを使用し、コンピューティング パワー リソースには単一の RTX 4090 カードを使用します。

オンラインで実行:https://go.hyper.ai/tiP36

デモの例

3. インコンテキスト編集: コマンド駆動型画像生成と編集

In-Context Edit は、コマンドベースの画像編集のための効率的なフレームワークです。従来の方法と比較すると、ICEdit はトレーニング可能なパラメータが 1% (200M)、トレーニング データが 0.1% (50k) しかないにもかかわらず、強力な一般化能力を示し、さまざまな編集タスクを処理できます。 Gemini や GPT4o などの商用モデルと比較すると、よりオープンソースで、コストが低く、高速で、パフォーマンスが強力です。

このチュートリアルでは、リソースとして単一の RTX 4090 カードを使用します。公式に述べられている 9 秒で画像を生成するには、より高い構成のグラフィック カードが必要になります。現在、英語のテキスト説明のみがサポートされています。

オンラインで実行:https://go.hyper.ai/Ytv6C

デモの例

ビデオ生成チュートリアル

1. TransPixeler: テキストからRGBAビデオを生成する

TransPixeler は、元の RGB モデルの利点を保持し、限られたトレーニング データで RGB とアルファ チャネル間の強力な調整を実現します。これにより、多様で一貫性のある RGBA ビデオを効果的に生成できるため、視覚効果やインタラクティブなコンテンツ作成の可能性が高まります。

このチュートリアルでは、リソースとして単一の RTX A6000 カードを使用しており、テキストの説明は現在英語のみをサポートしています。

オンラインで実行:https://go.hyper.ai/1OFP9

デモの例

2. FramePack 低ビデオメモリビデオ生成デモ

FramePack は革新的なニューラル ネットワーク アーキテクチャを使用して、従来のビデオ生成におけるビデオ メモリの使用量の増加、ドリフト、忘却などの問題を効果的に解決し、ハードウェア要件を大幅に削減します。

このチュートリアルでは、コンピューティング リソースとして RTX 4090 を使用します。コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります。

オンラインで実行:https://go.hyper.ai/rYELB

デモの例

数学的推論チュートリアル

1. vLLM+Open WebUIを使用してOpenMath-Nemotron-1.5Bをデプロイする

このモデルは、OpenMathReasoning データセットで Qwen/Qwen2.5-Math-1.5B を微調整して作成されました。このモデルは、一般的な数学ベンチマークで最先端の結果を達成しており、現在は商用利用のライセンスが付与されています。

このチュートリアルのコンピューティング リソースでは、単一の RTX 4090 カードが使用され、数学の問題の計算のみがサポートされ、回答は英語で提供されます。

オンラインで実行:https://go.hyper.ai/rasEm

デモの例

2. vLLM+Open WebUIを使用してDeepSeek-Prover-V2-7Bをデプロイする

DeepSeek-Prover-V2-7B の最も重要な特徴は、非公式な数学的推論 (つまり、人間が一般的に使用する推論方法) と厳密な形式的証明をシームレスに組み合わせる機能です。これにより、モデルは人間と同じくらい柔軟に考え、コンピューターと同じくらい厳密に証明することができ、数学的推論の統合された融合が実現されます。

このチュートリアルでは、リソースとして単一の RTX A6000 カードを使用します。このモデルは数学的推論問題のみをサポートします。

オンラインで実行:https://go.hyper.ai/JYCI2

デモの例

注目のコミュニティ記事

1. Natureのサブジャーナルに掲載されました!華中科技大学は、複数のセンターと専門分野における敗血症性ショックの死亡リスクの正確な予測を達成するための融合戦略AIモデルを提案した。

同済病院と華中科技大学同済医学院付属医療健康管理学院の研究チームは、ICUにおける敗血症性ショックの患者の28日以内の死亡リスクを予測するためのTOPSISベースの分類融合(TCF)モデルを革新的に提案した。このモデルは 7 つの機械学習モデルを統合しており、専門家間および多施設検証において高い安定性と精度を備えています。

レポート全体を表示します。https://go.hyper.ai/K42Fp

2. オックスフォード大学などは、746万人の成人の健康データを徹底的に調査して早期スクリーニングアルゴリズムを開発し、血液指標に基づいて15種類の癌の早期予測を実現した。

ロンドン大学クイーン・メアリー校とオックスフォード大学の研究チームが協力し、イングランドの成人746万人の匿名の電子健康記録に基づいて、2つの新しいがん予測アルゴリズムを開発しました。基本アルゴリズムでは従来の臨床因子と症状の変数を統合し、高度なアルゴリズムでは全血球数や肝機能検査などの血液指標をさらに取り入れています。この記事は研究論文を詳細に解釈して共有したものです。

レポート全体を表示します。https://go.hyper.ai/12a8Z

3. ICML 2025に選出された清華大学/人民大学/Byteは、多種類の薬物分子設計を実現する初の分子間統合生成フレームワークUniMoMoを提案した。

清華大学の劉楊教授のチームは、人民大学およびByteDanceのチームと共同で、分子種全体にわたる統一された生成フレームワークであるUniMoMoを共同で提案した。このフレームワークは、分子フラグメントに基づいてさまざまな種類の分子を均一に表現し、同じターゲットに対して異なる種類の結合分子を設計することを可能にします。この記事は、その研究を詳細に解釈し共有したものです。

レポート全体を表示します。https://go.hyper.ai/e96ci

人気のある百科事典の項目を厳選

1. ゲート付きリカレントユニット

2. 逆ソート融合 

3. 3次元ガウス散乱

4. 事例ベース推論

5. 双方向の長短期記憶

ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。https://go.hyper.ai/wiki

サミットの締め切りは6月

2026年 6月2日 7:59:59

S&P 2026 6月6日 7:59:59

ICDE 2026 6月19日 7:59:59

主要な人工知能学会をワンストップで追跡:https://go.hyper.ai/event

上記は、今週編集者が選択したすべてのコンテンツです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、お気軽にメッセージを残すか、投稿してお知らせください。

また来週お会いしましょう!