ゼロサンプリングTTSの画期的な進歩！数秒のリファレンスオーディオで、OmniVoiceは数百の言語を簡単に複製するのに役立ちます。17言語すべてを一度に：MDPbenchは、リソースの少ないテキストシステムの解析の主要な問題を解決します。

3ヶ月前

既存のゼロショットテキスト音声合成（TTS）モデルは通常、少数の言語しかサポートしておらず、リソースの少ない多数の言語を無視しています。この制限を克服するために、Xiaomi AI Labsの次世代Kaldiチームは、600以上の言語をサポートする大規模で多言語対応のゼロショットTTSモデルであるOmniVoiceを発表しました。OmniVoiceは、煩雑な従来の2段階カスケードアーキテクチャを廃止し、合理化された単段階離散非自己回帰（NAR）フレームワークを採用して、テキストを音響マーカーに直接マッピングします。581,000時間分の純粋なオープンソースデータで学習されたOmniVoiceは、現在までに最も幅広い言語に対応しています。

現在、HyperAIのウェブサイトでは[該当するセクション/機能]が公開されています。OmniVoice：600以上の言語で高品質なテキスト読み上げ（TTS）をサポートぜひお試しください！

オンラインでの使用:https://go.hyper.ai/BvKri

より詳しい情報については、弊社の公式ウェブサイトをご覧ください。

https://hyper.ai

hyper.aiの公式サイトにおける4月11日から4月17日までの更新内容の概要は以下のとおりです。

* 高品質な公開データセット：11件

* 厳選された高品質のチュートリアル：6

* コミュニティ記事分析：2件

* 人気のある百科事典のエントリ: 5

4月締切の主要カンファレンス：2件

公式ウェブサイトにアクセスしてください:ハイパーアイ

公開データセットの選択

1. 脳卒中リスクデータセット

Stroke Riskは、医療現場における脳卒中リスクの分析と予測のためのデータセットです。一般的な臨床リスク因子に基づいて構築されたこのデータセットには、人口統計情報、病歴、生活習慣因子、主要な健康指標が含まれています。さまざまな健康状態や生活習慣における脳卒中発生確率を反映しており、機械学習モデルによる脳卒中リスクの予測と分析を支援し、主要な影響因子を特定することで、早期スクリーニングと予防能力の向上を目指しています。

オンラインでの使用:https://go.hyper.ai/6CTH5

2. ToolACE 複合ツール学習対話データセット

ToolACEは、ツール学習タスクのための自動エージェントパイプラインデータセットです。このデータセットには、26,507種類の多様なAPIを呼び出す複数ステップの会話例が含まれています。サンプルはマルチエージェントのインタラクションを通じて生成され、ルールチェックとモデル検証という2層の品質保証プロセスを経て作成されています。各対話は、複数ステップ、複数ソースの情報検索および分析タスクを表しており、ツール呼び出しシナリオを現実的にシミュレートし、LLM（低レベル学習）のための高価値なトレーニングデータを提供します。

オンラインでの使用:https://go.hyper.ai/o3E12

3.CHOCLO ラテンアメリカ文化ベンチマークデータセット

CHOCLOデータセットは、言語モデルにおけるラテンアメリカ文化の知識を評価するために特別に設計されたベンチマークデータセットです。ラテンアメリカ文化を表現する言語モデルの精度を評価することを目的としており、言語モデルにおけるラテンアメリカ文化の過小評価、省略、偏りといった現実世界の課題に対処するように設計されています。

オンラインでの使用:https://go.hyper.ai/pjVQi

4. DRACO（学際的詳細研究ベンチマークデータセット）

Perplexityチームが公開したDRACOデータセットは、複雑な研究課題を評価するために設計されたデータセットであり、精度、完全性、客観性の観点から、深層研究システムの包括的な能力を体系的に評価することを目的としています。

オンラインでの使用:https://go.hyper.ai/hIWgS

5. MDPBench 多言語文書解析ベンチマークデータセット

MDPBenchは、多言語のデジタル文書や写真文書を解析するためのベンチマークデータセットであり、現実世界の複雑なシナリオにおいて、モデルが多言語文書を解析する能力を評価し、改善するために設計されています。

オンラインでの使用:https://go.hyper.ai/1Mc9a

6. World Model Benchデータセット

World Model Benchは、世界モデルと具現化されたAIシステムの認知能力を評価するための世界初のベンチマークです。従来の画像や動画の品質評価を超え、モデルの認知能力に焦点を当てることを目指しています。このデータセットは、知覚、認知、具現化という3つの主要な側面を網羅し、世界モデルの能力を評価するために構築されています。さらに、環境理解、実体認識と分類、予測に基づく推論など、10のタスクカテゴリに細分化されており、複雑な環境におけるモデルの認知能力と意思決定能力を体系的に評価するために設計された100の多様なシナリオが含まれています。

オンラインでの使用:https://go.hyper.ai/hY0aP

7. クレジットカード詐欺検出データセット

クレジットカード詐欺データセットは、金融取引シナリオにおけるクレジットカード詐欺を検出するためのデータセットです。異常な取引の特定とモデリングにおいて機械学習モデルを支援することを目的としており、金融シナリオにおける極端なクラス不均衡の問題を解決することに焦点を当て、それによって実際のビジネス環境におけるモデルの検出能力を向上させます。

オンラインでの使用:https://go.hyper.ai/3d8nS

8. スパムメール検出データセット

スパムメール検出データセットは、スパム検出タスク用のラベル付きメールデータセットです。このデータセットは、分類モデリング、自然言語処理、特徴量エンジニアリングに関連する研究を支援し、モデルのスパム識別能力を向上させることを目的としています。

オンラインでの使用:https://go.hyper.ai/HkpX5

9. シンプルな音声質問データセット

「Simple Voice Questions」は、Googleが公開した短い音声データセットです。この多言語音声データセットには、26地域17言語の短い音声質問が収録されており、合計約700人の話者が参加しています。各話者は最大250の音声サンプルを提供しており、アラビア語、英語、日本語、韓国語、ヒンディー語など複数の言語を網羅し、静かな環境、背景の音声、交通騒音など、多様な録音条件が含まれています。

オンラインでの使用:https://go.hyper.ai/lrKpK

10. COCO-2017-ベトナム語画像検出データセット

COCO-2017-Vietnameseは、Microsoftが提案したCommon Objects in Context 2017データセットをベースに構築され、AI Enthusiasmコミュニティによってコンパイルおよび公開された、ベトナム語ローカライズ拡張データセットです。このデータセットは、元の英語の画像説明に加えて高品質のベトナム語翻訳を導入しており、画像キャプション生成やマルチモーダル学習などのタスクに適した、バイリンガルフレームワークにおける包括的なベンチマークを提供します。

オンラインでの使用:https://go.hyper.ai/VM6gY

11. GPT-5.4ステップバイステップ推論データセット

GPT-5.4ステップバイステップ推論データセットは、長連鎖推論（CoT）モデリングと複雑な問題解決タスク向けに設計された高密度合成推論データセットです。このデータセットには、数学、プログラミング、医学などの高度な複雑性を持つ分野を網羅する約1,500のエリートレベルのサンプルが含まれており、タスクの難易度は「グランドマスター」レベルと「博士号取得者以上」レベルに統一されています。

オンラインでの使用:https://go.hyper.ai/HjJlT

選択された公開チュートリアル

1. OmniVoice：600以上の言語で高品質なTTS（テキスト音声合成）をサポートします。

OmniVoiceは、Xiaomi AI Labの次世代Kaldiチームが開発した多言語対応のテキスト音声合成（TTS）モデルで、600以上の言語で高品質な音声合成をサポートしています。反復型マスク解除デコードアーキテクチャに基づき、音声クローン、音声デザイン、自動音声生成という3つの主要機能を実装しています。

オンラインで実行:https://go.hyper.ai/BvKri

2. DeepTutorパーソナルラーニングアシスタント

DeepTutorは、香港大学データインテリジェンスラボが2026年3月に発表した、包括的なAI駆動型教育システムであり、パーソナル学習アシスタントです。このプロジェクトは、膨大なドキュメントに基づく知識Q&A、インタラクティブな学習可視化、知識強化と練習問題生成、そして詳細な調査と創造的な生成という4つの主要機能モジュールを統合し、学習者にワンストップのインテリジェントな学習体験を提供します。

オンラインで実行:https://go.hyper.ai/8YnI3

3. VoxCPM2音声再生：30以上の言語、9つの方言

VoxCPM2は、OpenBMBが2026年4月にリリースした、2Bパラメータ規模のトークナイザー不要のテキスト読み上げモデルです。30言語に対応し、追加の言語タグは不要で、ゼロから新しい音色を生成する機能、参照音声に基づいて制御されたクローンを作成する機能、参照音声と書き起こされたテキストを組み合わせることで高度なクローンを作成する機能、テキストの内容に基づいて音色や表現力を自動調整する機能など、さまざまなユースケースに対応しています。公式仕様では、48kHz出力、16kHz参照音声との互換性、文脈認識型表現も強調されています。

オンラインで実行:https://go.hyper.ai/RLgK9

4. Nemotron-Cascade-2-30B-A3Bのワンクリック展開

NVIDIAが2026年3月にリリースしたNemotron-Cascade-2-30B-A3Bは、300億のMoEと約30億のアクティブパラメータを持つオープンソースの大規模言語モデルで、Nemotron-3-Nano-30B-A3B-Baseで学習されています。このモデルの主な目的は、強力な推論、対話、コード関連、およびエージェンシー機能を提供することであり、同時に思考モードと指示モードの両方をサポートします。

オンラインで実行:https://go.hyper.ai/GoEaW

5. Netflix VOID：物理的認識機能を備えた革新的なビデオ物体除去技術。

Netflix VOIDは、Netflixチームとソフィア大学が2026年4月に共同でオープンソース化したビデオ編集モデルです。50億個のパラメータを持つNetflix VOIDモデルは、映画のポストプロダクションにおける物理的な一貫性の問題を解決するために設計されており、複雑なオブジェクト間の因果関係を処理する際の従来のビデオ編集技術の限界を克服することを目指しています。

オンラインで実行:https://go.hyper.ai/uZoMl

6. Fun-CineForge：多様な映画・テレビ番組のシナリオにおけるゼロサンプル吹き替えのための統一モデル

Fun-CineForgeは、2026年1月に同義研究所音声チームと中国科学技術大学が共同で立ち上げた、ショット数ゼロの映画吹き替えプロジェクトです。このプロジェクトには、大規模な吹き替えデータセットを生成するためのエンドツーエンドのデータセットパイプラインと、多様な映画シナリオに対応するために設計された大規模マルチモーダルモデル（LMM）に基づく吹き替えモデルが含まれています。

オンラインで実行:https://go.hyper.ai/DyQKk

コミュニティ記事の解釈

1. AIを活用した多様な低分子結合タンパク質の新規設計：韓国の研究チームが、ストレスホルモンを選択的に認識できるタンパク質を発見した。

韓国科学技術院（KAIST）生物科学科の研究チームは、深層学習を用いたタンパク質構造生成および配列設計手法を用いて、NTF2様フォールドをコアとなる「普遍的な骨格」として、多様な低分子結合タンパク質をde novo設計し、さらに化学的に誘導される二量体化（CID）に類似したセンサーへと変換した。研究チームは、ストレスホルモンであるコルチゾールを選択的に認識できるタンパク質の設計に成功し、これに基づいた人工知能バイオセンサーを開発した。

レポート全体を表示します。https://go.hyper.ai/FpAXm

2. フランスの研究チームは、239万個の抗ファージタンパク質を正確に予測し、深層学習モデルを用いて細菌の抗ウイルス免疫をマッピングすることに成功した。

フランスのパスツール研究所の研究者らは、ファージ耐性の大規模予測のために、3つの相補的な深層学習モデルを開発し、改良を重ねた。ALBERT_DFモデルは、推論に局所的なゲノムコンテキストのみを使用する。ESM_DFは、タンパク質言語モデルを用いてアミノ酸配列を解析する。GeneCLR_DFは、配列情報とゲノムコンテキストを統合する。

レポート全体を表示します。https://go.hyper.ai/J5Oz3

ゼロサンプリングTTSの画期的な進歩！数秒のリファレンスオーディオで、OmniVoiceは数百の言語を簡単に複製するのに役立ちます。17言語すべてを一度に：MDPbenchは、リソースの少ないテキストシステムの解析の主要な問題を解決します。

3ヶ月前

オンラインでの使用:https://go.hyper.ai/BvKri

より詳しい情報については、弊社の公式ウェブサイトをご覧ください。

https://hyper.ai

hyper.aiの公式サイトにおける4月11日から4月17日までの更新内容の概要は以下のとおりです。

* 高品質な公開データセット：11件

* 厳選された高品質のチュートリアル：6

* コミュニティ記事分析：2件

* 人気のある百科事典のエントリ: 5

4月締切の主要カンファレンス：2件

公式ウェブサイトにアクセスしてください:ハイパーアイ

公開データセットの選択

1. 脳卒中リスクデータセット

オンラインでの使用:https://go.hyper.ai/6CTH5

2. ToolACE 複合ツール学習対話データセット

オンラインでの使用:https://go.hyper.ai/o3E12

3.CHOCLO ラテンアメリカ文化ベンチマークデータセット

オンラインでの使用:https://go.hyper.ai/pjVQi

4. DRACO（学際的詳細研究ベンチマークデータセット）

オンラインでの使用:https://go.hyper.ai/hIWgS

5. MDPBench 多言語文書解析ベンチマークデータセット

オンラインでの使用:https://go.hyper.ai/1Mc9a

6. World Model Benchデータセット

オンラインでの使用:https://go.hyper.ai/hY0aP

7. クレジットカード詐欺検出データセット

オンラインでの使用:https://go.hyper.ai/3d8nS

8. スパムメール検出データセット

オンラインでの使用:https://go.hyper.ai/HkpX5

9. シンプルな音声質問データセット

オンラインでの使用:https://go.hyper.ai/lrKpK

10. COCO-2017-ベトナム語画像検出データセット

オンラインでの使用:https://go.hyper.ai/VM6gY

11. GPT-5.4ステップバイステップ推論データセット

オンラインでの使用:https://go.hyper.ai/HjJlT

選択された公開チュートリアル

1. OmniVoice：600以上の言語で高品質なTTS（テキスト音声合成）をサポートします。

オンラインで実行:https://go.hyper.ai/BvKri

2. DeepTutorパーソナルラーニングアシスタント

オンラインで実行:https://go.hyper.ai/8YnI3

3. VoxCPM2音声再生：30以上の言語、9つの方言

オンラインで実行:https://go.hyper.ai/RLgK9

4. Nemotron-Cascade-2-30B-A3Bのワンクリック展開

オンラインで実行:https://go.hyper.ai/GoEaW

5. Netflix VOID：物理的認識機能を備えた革新的なビデオ物体除去技術。

オンラインで実行:https://go.hyper.ai/uZoMl

6. Fun-CineForge：多様な映画・テレビ番組のシナリオにおけるゼロサンプル吹き替えのための統一モデル

オンラインで実行:https://go.hyper.ai/DyQKk

コミュニティ記事の解釈

1. AIを活用した多様な低分子結合タンパク質の新規設計：韓国の研究チームが、ストレスホルモンを選択的に認識できるタンパク質を発見した。

レポート全体を表示します。https://go.hyper.ai/FpAXm

レポート全体を表示します。https://go.hyper.ai/J5Oz3

Command Palette

公開データセットの選択

選択された公開チュートリアル

コミュニティ記事の解釈

人気のある百科事典の項目を厳選

Command Palette

公開データセットの選択

選択された公開チュートリアル

コミュニティ記事の解釈

人気のある百科事典の項目を厳選

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

オンラインチュートリアル｜600以上の言語に対応、XiaomiがOmniVoiceをオープンソース化：わずか3～10秒の参照音声で音声クローンを実現

ICML 26優秀論文：清華大学JustGRPOがdLLM推論のボトルネックを克服。単純な指示テストに別れを告げる：エージェント最終試験がインテリジェントエージェントの長期的な専門能力を包括的に評価。

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニング サンプルを収録。数学的推論、コード生成、多言語対話を網羅。

Googleは、混合表形式データ向けに設計されたゼロショット予測モデルであるTabFM-1.0.0-PyTorchをリリースしました。NVIDIAは、数千万文字が利用可能な多国籍合成文字データセットをオープンソース化しました。

Command Palette

公開データセットの選択

選択された公開チュートリアル

コミュニティ記事の解釈

人気のある百科事典の項目を厳選

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

オンラインチュートリアル｜600以上の言語に対応、XiaomiがOmniVoiceをオープンソース化：わずか3～10秒の参照音声で音声クローンを実現

ICML 26優秀論文：清華大学JustGRPOがdLLM推論のボトルネックを克服。単純な指示テストに別れを告げる：エージェント最終試験がインテリジェントエージェントの長期的な専門能力を包括的に評価。

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニング サンプルを収録。数学的推論、コード生成、多言語対話を網羅。

Googleは、混合表形式データ向けに設計されたゼロショット予測モデルであるTabFM-1.0.0-PyTorchをリリースしました。NVIDIAは、数千万文字が利用可能な多国籍合成文字データセットをオープンソース化しました。

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

オンラインチュートリアル｜600以上の言語に対応、XiaomiがOmniVoiceをオープンソース化：わずか3～10秒の参照音声で音声クローンを実現

ICML 26優秀論文：清華大学JustGRPOがdLLM推論のボトルネックを克服。単純な指示テストに別れを告げる：エージェント最終試験がインテリジェントエージェントの長期的な専門能力を包括的に評価。

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニング サンプルを収録。数学的推論、コード生成、多言語対話を網羅。

Googleは、混合表形式データ向けに設計されたゼロショット予測モデルであるTabFM-1.0.0-PyTorchをリリースしました。NVIDIAは、数千万文字が利用可能な多国籍合成文字データセットをオープンソース化しました。

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

オンラインチュートリアル｜600以上の言語に対応、XiaomiがOmniVoiceをオープンソース化：わずか3～10秒の参照音声で音声クローンを実現

ICML 26優秀論文：清華大学JustGRPOがdLLM推論のボトルネックを克服。単純な指示テストに別れを告げる：エージェント最終試験がインテリジェントエージェントの長期的な専門能力を包括的に評価。

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニング サンプルを収録。数学的推論、コード生成、多言語対話を網羅。

Googleは、混合表形式データ向けに設計されたゼロショット予測モデルであるTabFM-1.0.0-PyTorchをリリースしました。NVIDIAは、数千万文字が利用可能な多国籍合成文字データセットをオープンソース化しました。

関連ニュース

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニングサンプルを収録。数学的推論、コード生成、多言語対話を網羅。

関連ニュース

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニングサンプルを収録。数学的推論、コード生成、多言語対話を網羅。

関連ニュース

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニングサンプルを収録。数学的推論、コード生成、多言語対話を網羅。

関連ニュース

データセットの概要 | NVIDIA オープンソース Nemotron データセット: 10TB を超えるトークンと 4000 万のトレーニングサンプルを収録。数学的推論、コード生成、多言語対話を網羅。