HyperAIHyperAI

Command Palette

Search for a command to run...

ゼロサンプリングTTSの画期的な進歩!数秒のリファレンスオーディオで、OmniVoiceは数百の言語を簡単に複製するのに役立ちます。17言語すべてを一度に:MDPbenchは、リソースの少ないテキストシステムの解析の主要な問題を解決します。

Featured Image

既存のゼロショットテキスト音声合成(TTS)モデルは通常、少数の言語しかサポートしておらず、リソースの少ない多数の言語を無視しています。この制限を克服するために、Xiaomi AI Labsの次世代Kaldiチームは、600以上の言語をサポートする大規模で多言語対応のゼロショットTTSモデルであるOmniVoiceを発表しました。OmniVoiceは、煩雑な従来の2段階カスケードアーキテクチャを廃止し、合理化された単段階離散非自己回帰(NAR)フレームワークを採用して、テキストを音響マーカーに直接マッピングします。581,000時間分の純粋なオープンソースデータで学習されたOmniVoiceは、現在までに最も幅広い言語に対応しています。

現在、HyperAIのウェブサイトでは[該当するセクション/機能]が公開されています。OmniVoice:600以上の言語で高品質なテキスト読み上げ(TTS)をサポートぜひお試しください!

オンラインでの使用:https://go.hyper.ai/BvKri

より詳しい情報については、弊社の公式ウェブサイトをご覧ください。

https://hyper.ai

hyper.aiの公式サイトにおける4月11日から4月17日までの更新内容の概要は以下のとおりです。

* 高品質な公開データセット:11件

* 厳選された高品質のチュートリアル:6

* コミュニティ記事分析:2件

* 人気のある百科事典のエントリ: 5

4月締切の主要カンファレンス:2件

公式ウェブサイトにアクセスしてください:ハイパーアイ

公開データセットの選択

1. 脳卒中リスクデータセット

Stroke Riskは、医療現場における脳卒中リスクの分析と予測のためのデータセットです。一般的な臨床リスク因子に基づいて構築されたこのデータセットには、人口統計情報、病歴、生活習慣因子、主要な健康指標が含まれています。さまざまな健康状態や生活習慣における脳卒中発生確率を反映しており、機械学習モデルによる脳卒中リスクの予測と分析を支援し、主要な影響因子を特定することで、早期スクリーニングと予防能力の向上を目指しています。

オンラインでの使用:https://go.hyper.ai/6CTH5

2. ToolACE 複合ツール学習対話データセット

ToolACEは、ツール学習タスクのための自動エージェントパイプラインデータセットです。このデータセットには、26,507種類の多様なAPIを呼び出す複数ステップの会話例が含まれています。サンプルはマルチエージェントのインタラクションを通じて生成され、ルールチェックとモデル検証という2層の品質保証プロセスを経て作成されています。各対話は、複数ステップ、複数ソースの情報検索および分析タスクを表しており、ツール呼び出しシナリオを現実的にシミュレートし、LLM(低レベル学習)のための高価値なトレーニングデータを提供します。

オンラインでの使用:https://go.hyper.ai/o3E12

3.CHOCLO ラテンアメリカ文化ベンチマークデータセット

CHOCLOデータセットは、言語モデルにおけるラテンアメリカ文化の知識を評価するために特別に設計されたベンチマークデータセットです。ラテンアメリカ文化を表現する言語モデルの精度を評価することを目的としており、言語モデルにおけるラテンアメリカ文化の過小評価、省略、偏りといった現実世界の課題に対処するように設計されています。

オンラインでの使用:https://go.hyper.ai/pjVQi

4. DRACO(学際的詳細研究ベンチマークデータセット)

Perplexityチームが公開したDRACOデータセットは、複雑な研究課題を評価するために設計されたデータセットであり、精度、完全性、客観性の観点から、深層研究システムの包括的な能力を体系的に評価することを目的としています。

オンラインでの使用:https://go.hyper.ai/hIWgS

5. MDPBench 多言語文書解析ベンチマークデータセット

MDPBenchは、多言語のデジタル文書や写真文書を解析するためのベンチマークデータセットであり、現実世界の複雑なシナリオにおいて、モデルが多言語文書を解析する能力を評価し、改善するために設計されています。

オンラインでの使用:https://go.hyper.ai/1Mc9a

6. World Model Benchデータセット

World Model Benchは、世界モデルと具現化されたAIシステムの認知能力を評価するための世界初のベンチマークです。従来の画像や動画の品質評価を超え、モデルの認知能力に焦点を当てることを目指しています。このデータセットは、知覚、認知、具現化という3つの主要な側面を網羅し、世界モデルの能力を評価するために構築されています。さらに、環境理解、実体認識と分類、予測に基づく推論など、10のタスクカテゴリに細分化されており、複雑な環境におけるモデルの認知能力と意思決定能力を体系的に評価するために設計された100の多様なシナリオが含まれています。

オンラインでの使用:https://go.hyper.ai/hY0aP

7. クレジットカード詐欺検出データセット

クレジットカード詐欺データセットは、金融取引シナリオにおけるクレジットカード詐欺を検出するためのデータセットです。異常な取引の特定とモデリングにおいて機械学習モデルを支援することを目的としており、金融シナリオにおける極端なクラス不均衡の問題を解決することに焦点を当て、それによって実際のビジネス環境におけるモデルの検出能力を向上させます。

オンラインでの使用:https://go.hyper.ai/3d8nS

8. スパムメール検出データセット

スパムメール検出データセットは、スパム検出タスク用のラベル付きメールデータセットです。このデータセットは、分類モデリング、自然言語処理、特徴量エンジニアリングに関連する研究を支援し、モデルのスパム識別能力を向上させることを目的としています。

オンラインでの使用:https://go.hyper.ai/HkpX5

9. シンプルな音声質問データセット

「Simple Voice Questions」は、Googleが公開した短い音声データセットです。この多言語音声データセットには、26地域17言語の短い音声質問が収録されており、合計約700人の話者が参加しています。各話者は最大250の音声サンプルを提供しており、アラビア語、英語、日本語、韓国語、ヒンディー語など複数の言語を網羅し、静かな環境、背景の音声、交通騒音など、多様な録音条件が含まれています。

オンラインでの使用:https://go.hyper.ai/lrKpK

10. COCO-2017-ベトナム語画像検出データセット

COCO-2017-Vietnameseは、Microsoftが提案したCommon Objects in Context 2017データセットをベースに構築され、AI Enthusiasmコミュニティによってコンパイルおよび公開された、ベトナム語ローカライズ拡張データセットです。このデータセットは、元の英語の画像説明に加えて高品質のベトナム語翻訳を導入しており、画像キャプション生成やマルチモーダル学習などのタスクに適した、バイリンガルフレームワークにおける包括的なベンチマークを提供します。

オンラインでの使用:https://go.hyper.ai/VM6gY

11. GPT-5.4ステップバイステップ推論データセット

GPT-5.4ステップバイステップ推論データセットは、長連鎖推論(CoT)モデリングと複雑な問題解決タスク向けに設計された高密度合成推論データセットです。このデータセットには、数学、プログラミング、医学などの高度な複雑性を持つ分野を網羅する約1,500のエリートレベルのサンプルが含まれており、タスクの難易度は「グランドマスター」レベルと「博士号取得者以上」レベルに統一されています。

オンラインでの使用:https://go.hyper.ai/HjJlT

選択された公開チュートリアル

1. OmniVoice:600以上の言語で高品質なTTS(テキスト音声合成)をサポートします。

OmniVoiceは、Xiaomi AI Labの次世代Kaldiチームが開発した多言語対応のテキスト音声合成(TTS)モデルで、600以上の言語で高品質な音声合成をサポートしています。反復型マスク解除デコードアーキテクチャに基づき、音声クローン、音声デザイン、自動音声生成という3つの主要機能を実装しています。

オンラインで実行:https://go.hyper.ai/BvKri

デモページ

2. DeepTutorパーソナルラーニングアシスタント

DeepTutorは、香港大学データインテリジェンスラボが2026年3月に発表した、包括的なAI駆動型教育システムであり、パーソナル学習アシスタントです。このプロジェクトは、膨大なドキュメントに基づく知識Q&A、インタラクティブな学習可視化、知識強化と練習問題生成、そして詳細な調査と創造的な生成という4つの主要機能モジュールを統合し、学習者にワンストップのインテリジェントな学習体験を提供します。

オンラインで実行:https://go.hyper.ai/8YnI3

デモページ

3. VoxCPM2音声再生:30以上の言語、9つの方言

VoxCPM2は、OpenBMBが2026年4月にリリースした、2Bパラメータ規模のトークナイザー不要のテキスト読み上げモデルです。30言語に対応し、追加の言語タグは不要で、ゼロから新しい音色を生成する機能、参照音声に基づいて制御されたクローンを作成する機能、参照音声と書き起こされたテキストを組み合わせることで高度なクローンを作成する機能、テキストの内容に基づいて音色や表現力を自動調整する機能など、さまざまなユースケースに対応しています。公式仕様では、48kHz出力、16kHz参照音声との互換性、文脈認識型表現も強調されています。

オンラインで実行:https://go.hyper.ai/RLgK9

デモページ

4. Nemotron-Cascade-2-30B-A3Bのワンクリック展開

NVIDIAが2026年3月にリリースしたNemotron-Cascade-2-30B-A3Bは、300億のMoEと約30億のアクティブパラメータを持つオープンソースの大規模言語モデルで、Nemotron-3-Nano-30B-A3B-Baseで学習されています。このモデルの主な目的は、強力な推論、対話、コード関連、およびエージェンシー機能を提供することであり、同時に思考モードと指示モードの両方をサポートします。

オンラインで実行:https://go.hyper.ai/GoEaW

デモページ

5. Netflix VOID:物理的認識機能を備えた革新的なビデオ物体除去技術。

Netflix VOIDは、Netflixチームとソフィア大学が2026年4月に共同でオープンソース化したビデオ編集モデルです。50億個のパラメータを持つNetflix VOIDモデルは、映画のポストプロダクションにおける物理的な一貫性の問題を解決するために設計されており、複雑なオブジェクト間の因果関係を処理する際の従来のビデオ編集技術の限界を克服することを目指しています。

オンラインで実行:https://go.hyper.ai/uZoMl

デモページ

6. Fun-CineForge:多様な映画・テレビ番組のシナリオにおけるゼロサンプル吹き替えのための統一モデル

Fun-CineForgeは、2026年1月に同義研究所音声チームと中国科学技術大学が共同で立ち上げた、ショット数ゼロの映画吹き替えプロジェクトです。このプロジェクトには、大規模な吹き替えデータセットを生成するためのエンドツーエンドのデータセットパイプラインと、多様な映画シナリオに対応するために設計された大規模マルチモーダルモデル(LMM)に基づく吹き替えモデルが含まれています。

オンラインで実行:https://go.hyper.ai/DyQKk

デモページ

コミュニティ記事の解釈

1. AIを活用した多様な低分子結合タンパク質の新規設計:韓国の研究チームが、ストレスホルモンを選択的に認識できるタンパク質を発見した。

韓国科学技術院(KAIST)生物科学科の研究チームは、深層学習を用いたタンパク質構造生成および配列設計手法を用いて、NTF2様フォールドをコアとなる「普遍的な骨格」として、多様な低分子結合タンパク質をde novo設計し、さらに化学的に誘導される二量体化(CID)に類似したセンサーへと変換した。研究チームは、ストレスホルモンであるコルチゾールを選択的に認識できるタンパク質の設計に成功し、これに基づいた人工知能バイオセンサーを開発した。

レポート全体を表示します。https://go.hyper.ai/FpAXm

2. フランスの研究チームは、239万個の抗ファージタンパク質を正確に予測し、深層学習モデルを用いて細菌の抗ウイルス免疫をマッピングすることに成功した。

フランスのパスツール研究所の研究者らは、ファージ耐性の大規模予測のために、3つの相補的な深層学習モデルを開発し、改良を重ねた。ALBERT_DFモデルは、推論に局所的なゲノムコンテキストのみを使用する。ESM_DFは、タンパク質言語モデルを用いてアミノ酸配列を解析する。GeneCLR_DFは、配列情報とゲノムコンテキストを統合する。

レポート全体を表示します。https://go.hyper.ai/J5Oz3

人気のある百科事典の項目を厳選

1. スキル

2. グラウンドトゥルース

3. 人間が関与するプロセス

4. 大規模マルチタスク言語理解(MMLU)

5. 相互ランク融合

ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。

https://go.hyper.ai/wiki

4月締め切りの主要カンファレンス

主要な人工知能学会をワンストップで追跡:https://go.hyper.ai/event

上記は、今週編集者が選択したすべてのコンテンツです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、お気軽にメッセージを残すか、投稿してお知らせください。

また来週お会いしましょう!

HyperAIについて Hyper.ai

HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。

* 2100以上の公開データセット向けに、国内高速ダウンロードノードを提供

* 700以上の定番かつ人気のオンラインチュートリアルを収録

* 300件以上のAI4Science論文事例を分析

* 700以上の関連用語の検索に対応

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai