今週の編集者のおすすめ: Tencent の WorldPlay モデル、RFdiffusion3 タンパク質設計モデル、非常にリアルで感情的な音声生成サービスである Maya1。

世界モデルは、計算知能の焦点を言語タスクから視覚・空間推論へとシフトさせています。これらのモデルは、動的な3D環境のシミュレーションを構築することで、エージェントが複雑なシーンを認識し、インタラクションすることを可能にし、身体性知能やゲーム開発といった分野における新たな研究と応用の可能性を切り開きます。現在、世界モデルの最前線はリアルタイムのインタラクティブ動画生成に焦点を当てており、大きな進歩を遂げています。しかし、リアルタイム生成における低レイテンシと長期的なジオメトリにおける高い一貫性を同時に実現する方法は、この分野における重要な未解決課題として残っています。

これに基づいて、Tencent の Hunyuan チームは、長期的な幾何学的一貫性を維持しながら、リアルタイムでインタラクティブな世界モデリングを可能にする世界モデリングプラットフォーム、WorldPlay を立ち上げました。これにより、既存の手法における生成速度とメモリ使用量のトレードオフという本質的な問題を効果的に解決できます。このシステムの実装には、3つの重要な技術革新が含まれています。

*ダブルアクション表現：デュアルアクション表現を採用することで、ユーザーのキーボードとマウス入力の堅牢なアクション制御を実現し、インタラクティブな応答の精度と安定性を確保します。

*コンテキストメモリメカニズムの再構築：長期的な一貫性を確保するために、モデルは動的再構築コンテキストメモリモジュールを設計します。これにより、履歴フレームのコンテキスト情報を再構築し、時間再構築戦略を通じて幾何学的に重要だがかなり前のフレームのアクセス性を維持できるため、メモリの減衰問題が大幅に軽減されます。

*コンテキスト強制蒸留法:研究チームは、記憶知覚モデル向けに特別に設計された「コンテキストフォーシング」と呼ばれる新たな蒸留手法を提案しました。この手法は、教師モデルと生徒モデル間の記憶コンテキストを整合させることで、生徒モデルが遠隔情報を活用する能力を失うことなくリアルタイム推論速度を維持し、エラーバイアスを効果的に抑制することを可能にします。

WorldPlay は、24 FPS で 720p の高解像度ストリーミングビデオの長いシーケンスを安定して生成できます。WorldPlay は、複数の指標で既存のテクノロジーを上回り、多様なシナリオにわたって優れた一般化機能を実証し、制御、メモリ、改良のための体系的なフレームワークを提供することで、リアルタイムで一貫性のある世界モデルの作成において重要な一歩を踏み出しました。

HyperAI ウェブサイトに「HY-World 1.5: インタラクティブな世界モデリングシステムフレームワーク」が掲載されました。ぜひお試しください。

オンラインでの使用:https://go.hyper.ai/Dgd3Z

12月29日から1月2日までのhyper.ai公式サイトの更新内容の概要は次のとおりです。

* 高品質なチュートリアルのセレクション: 3

* 人気のある百科事典のエントリ: 5

1月締め切りのトップカンファレンス：10

公式ウェブサイトにアクセスしてください:ハイパーアイ

選択された公開チュートリアル

1. HY-World 1.5: インタラクティブな世界モデリングシステムのフレームワーク

HY-World 1.5（WorldPlay）は、テンセントのHunyuanチームがリリースした、長期的な幾何学的整合性を備えた初のオープンソースリアルタイムインタラクティブワールドモデルです。このモデルは、ストリーミングビデオ拡散技術を通じてリアルタイムインタラクティブワールドモデリングを実現し、従来の手法における速度とメモリのトレードオフを解決します。

オンラインで実行: https://go.hyper.ai/Dgd3Z

2. Maya1: 非常にリアルで感情的な音声生成サービス

Maya ResearchがリリースしたMaya1は、高品質な音声合成タスク向けに設計された、高忠実度の感情表現テキスト読み上げ（TTS）モデルです。豊かな感情表現と制御可能な発話スタイルを特徴としています。このモデルは、自然言語記述を通じて話者の感情状態、発話速度、トーン、音色、表現力を正確にモデル化することに重点を置いており、人間の表現に非常に近い、非常にリアルな音声出力を生成します。

オンラインで実行: https://go.hyper.ai/RmmI3

3. RFdiffusion3: タンパク質設計モデル

RFdiffusion3（RFD3）は、ワシントン大学タンパク質設計研究所が公開したモデルです。この最先端のバイオデザインAIモデルは、生細胞内のほぼあらゆる分子と相互作用する新規タンパク質を生成することができ、タンパク質工学者を長年悩ませてきた研究課題を解決します。

オンラインで実行: https://go.hyper.ai/gv4Rz

人気のある百科事典の項目を厳選

1. 1秒あたりのフレーム数（FPS）

2. 双方向長短期記憶（Bi-LSTM）

3. ゲート型注意

4. 具現化されたナビゲーション

5. ゲート付きリカレントユニット

ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。

https://go.hyper.ai/wiki

主要な人工知能学会をワンストップで追跡:https://go.hyper.ai/event

上記は、今週編集者が選択したすべてのコンテンツです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、お気軽にメッセージを残すか、投稿してお知らせください。

また来週お会いしましょう！

HyperAI

今週の編集者のおすすめ: Tencent の WorldPlay モデル、RFdiffusion3 タンパク質設計モデル、非常にリアルで感情的な音声生成サービスである Maya1。

1ヶ月前

HyperAI ウェブサイトに「HY-World 1.5: インタラクティブな世界モデリングシステムフレームワーク」が掲載されました。ぜひお試しください。

オンラインでの使用:https://go.hyper.ai/Dgd3Z

12月29日から1月2日までのhyper.ai公式サイトの更新内容の概要は次のとおりです。

* 高品質なチュートリアルのセレクション: 3

* 人気のある百科事典のエントリ: 5

1月締め切りのトップカンファレンス：10

公式ウェブサイトにアクセスしてください:ハイパーアイ

選択された公開チュートリアル

1. HY-World 1.5: インタラクティブな世界モデリングシステムのフレームワーク

オンラインで実行: https://go.hyper.ai/Dgd3Z

2. Maya1: 非常にリアルで感情的な音声生成サービス

オンラインで実行: https://go.hyper.ai/RmmI3

3. RFdiffusion3: タンパク質設計モデル

オンラインで実行: https://go.hyper.ai/gv4Rz

人気のある百科事典の項目を厳選

1. 1秒あたりのフレーム数（FPS）

2. 双方向長短期記憶（Bi-LSTM）

3. ゲート型注意

4. 具現化されたナビゲーション

5. ゲート付きリカレントユニット

ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。

https://go.hyper.ai/wiki

主要な人工知能学会をワンストップで追跡:https://go.hyper.ai/event

また来週お会いしましょう！

今週の編集者のおすすめ: Tencent の WorldPlay モデル、RFdiffusion3 タンパク質設計モデル、非常にリアルで感情的な音声生成サービスである Maya1。

1ヶ月前

HyperAI ウェブサイトに「HY-World 1.5: インタラクティブな世界モデリングシステムフレームワーク」が掲載されました。ぜひお試しください。

オンラインでの使用:https://go.hyper.ai/Dgd3Z

12月29日から1月2日までのhyper.ai公式サイトの更新内容の概要は次のとおりです。

* 高品質なチュートリアルのセレクション: 3

* 人気のある百科事典のエントリ: 5

1月締め切りのトップカンファレンス：10

公式ウェブサイトにアクセスしてください:ハイパーアイ

選択された公開チュートリアル

1. HY-World 1.5: インタラクティブな世界モデリングシステムのフレームワーク

オンラインで実行: https://go.hyper.ai/Dgd3Z

2. Maya1: 非常にリアルで感情的な音声生成サービス

オンラインで実行: https://go.hyper.ai/RmmI3

3. RFdiffusion3: タンパク質設計モデル

オンラインで実行: https://go.hyper.ai/gv4Rz

人気のある百科事典の項目を厳選

1. 1秒あたりのフレーム数（FPS）

2. 双方向長短期記憶（Bi-LSTM）

3. ゲート型注意

4. 具現化されたナビゲーション

5. ゲート付きリカレントユニット

ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。

https://go.hyper.ai/wiki

主要な人工知能学会をワンストップで追跡:https://go.hyper.ai/event

また来週お会いしましょう！

今週の編集者のおすすめ: Tencent の WorldPlay モデル、RFdiffusion3 タンパク質設計モデル、非常にリアルで感情的な音声生成サービスである Maya1。

今週の編集者のおすすめ: Tencent の WorldPlay モデル、RFdiffusion3 タンパク質設計モデル、非常にリアルで感情的な音声生成サービスである Maya1。

関連ニュース

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェントエージェントエクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

TRELLIS.2: O-Voxel テクノロジを採用し、複雑な 3D ジオメトリとマテリアルを効率的に生成します。患者離脱予測データセット: 離脱リスクのある患者を特定するのに役立ちます。

具現化された知能に関するリソースの集大成：ロボット学習データセット、世界モデリングモデルのオンライン体験、NVIDIA、ByteDance、Xiaomi などの最新の研究論文。

3Dビジョンのブレークスルー：ByteSeedがDA3を発表。あらゆる視点からの視覚空間再構成が可能に。7万点以上の実世界の産業環境データを搭載！CHIPが産業データのギャップを埋め、6Dポーズ推定を実現。

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマーグレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

LightOnOCR-2-1B: RLVR トレーニングに基づく高精度のエンドツーエンド OCR。Google ストリートビューの全国ストリートビュー画像: 世界クラスの地理マッピング技術に基づくオープンソースのパノラマ画像ライブラリ。

サム・アルトマン氏の人間による身元確認インフラへの賭けは世界的な規制上のジレンマに直面しており、10億人のユーザー目標を達成したのは2%のみである。

今週の編集者のおすすめ: Tencent の WorldPlay モデル、RFdiffusion3 タンパク質設計モデル、非常にリアルで感情的な音声生成サービスである Maya1。

関連ニュース

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェントエージェントエクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

TRELLIS.2: O-Voxel テクノロジを採用し、複雑な 3D ジオメトリとマテリアルを効率的に生成します。患者離脱予測データセット: 離脱リスクのある患者を特定するのに役立ちます。

具現化された知能に関するリソースの集大成：ロボット学習データセット、世界モデリングモデルのオンライン体験、NVIDIA、ByteDance、Xiaomi などの最新の研究論文。

3Dビジョンのブレークスルー：ByteSeedがDA3を発表。あらゆる視点からの視覚空間再構成が可能に。7万点以上の実世界の産業環境データを搭載！CHIPが産業データのギャップを埋め、6Dポーズ推定を実現。

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマーグレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

LightOnOCR-2-1B: RLVR トレーニングに基づく高精度のエンドツーエンド OCR。Google ストリートビューの全国ストリートビュー画像: 世界クラスの地理マッピング技術に基づくオープンソースのパノラマ画像ライブラリ。

サム・アルトマン氏の人間による身元確認インフラへの賭けは世界的な規制上のジレンマに直面しており、10億人のユーザー目標を達成したのは2%のみである。

関連ニュース

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェントエージェントエクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

TRELLIS.2: O-Voxel テクノロジを採用し、複雑な 3D ジオメトリとマテリアルを効率的に生成します。患者離脱予測データセット: 離脱リスクのある患者を特定するのに役立ちます。

具現化された知能に関するリソースの集大成：ロボット学習データセット、世界モデリングモデルのオンライン体験、NVIDIA、ByteDance、Xiaomi などの最新の研究論文。

3Dビジョンのブレークスルー：ByteSeedがDA3を発表。あらゆる視点からの視覚空間再構成が可能に。7万点以上の実世界の産業環境データを搭載！CHIPが産業データのギャップを埋め、6Dポーズ推定を実現。

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマーグレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

LightOnOCR-2-1B: RLVR トレーニングに基づく高精度のエンドツーエンド OCR。Google ストリートビューの全国ストリートビュー画像: 世界クラスの地理マッピング技術に基づくオープンソースのパノラマ画像ライブラリ。

サム・アルトマン氏の人間による身元確認インフラへの賭けは世界的な規制上のジレンマに直面しており、10億人のユーザー目標を達成したのは2%のみである。

関連ニュース

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェントエージェントエクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

TRELLIS.2: O-Voxel テクノロジを採用し、複雑な 3D ジオメトリとマテリアルを効率的に生成します。患者離脱予測データセット: 離脱リスクのある患者を特定するのに役立ちます。

具現化された知能に関するリソースの集大成：ロボット学習データセット、世界モデリングモデルのオンライン体験、NVIDIA、ByteDance、Xiaomi などの最新の研究論文。

3Dビジョンのブレークスルー：ByteSeedがDA3を発表。あらゆる視点からの視覚空間再構成が可能に。7万点以上の実世界の産業環境データを搭載！CHIPが産業データのギャップを埋め、6Dポーズ推定を実現。

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマーグレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

LightOnOCR-2-1B: RLVR トレーニングに基づく高精度のエンドツーエンド OCR。Google ストリートビューの全国ストリートビュー画像: 世界クラスの地理マッピング技術に基づくオープンソースのパノラマ画像ライブラリ。

サム・アルトマン氏の人間による身元確認インフラへの賭けは世界的な規制上のジレンマに直面しており、10億人のユーザー目標を達成したのは2%のみである。

Command Palette

今週の編集者のおすすめ: Tencent の WorldPlay モデル、RFdiffusion3 タンパク質設計モデル、非常にリアルで感情的な音声生成サービスである Maya1。

Command Palette

今週の編集者のおすすめ: Tencent の WorldPlay モデル、RFdiffusion3 タンパク質設計モデル、非常にリアルで感情的な音声生成サービスである Maya1。

関連 ニュース

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェント エージェント エクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

TRELLIS.2: O-Voxel テクノロジを採用し、複雑な 3D ジオメトリとマテリアルを効率的に生成します。患者離脱予測データセット: 離脱リスクのある患者を特定するのに役立ちます。

具現化された知能に関するリソースの集大成：ロボット学習データセット、世界モデリングモデルのオンライン体験、NVIDIA、ByteDance、Xiaomi などの最新の研究論文。

3Dビジョンのブレークスルー：ByteSeedがDA3を発表。あらゆる視点からの視覚空間再構成が可能に。7万点以上の実世界の産業環境データを搭載！CHIPが産業データのギャップを埋め、6Dポーズ推定を実現。

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマー グレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

LightOnOCR-2-1B: RLVR トレーニングに基づく高精度のエンドツーエンド OCR。Google ストリートビューの全国ストリートビュー画像: 世界クラスの地理マッピング技術に基づくオープンソースのパノラマ画像ライブラリ。

サム・アルトマン氏の人間による身元確認インフラへの賭けは世界的な規制上のジレンマに直面しており、10億人のユーザー目標を達成したのは2%のみである。

Command Palette

今週の編集者のおすすめ: Tencent の WorldPlay モデル、RFdiffusion3 タンパク質設計モデル、非常にリアルで感情的な音声生成サービスである Maya1。

関連 ニュース

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェント エージェント エクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

TRELLIS.2: O-Voxel テクノロジを採用し、複雑な 3D ジオメトリとマテリアルを効率的に生成します。患者離脱予測データセット: 離脱リスクのある患者を特定するのに役立ちます。

具現化された知能に関するリソースの集大成：ロボット学習データセット、世界モデリングモデルのオンライン体験、NVIDIA、ByteDance、Xiaomi などの最新の研究論文。

3Dビジョンのブレークスルー：ByteSeedがDA3を発表。あらゆる視点からの視覚空間再構成が可能に。7万点以上の実世界の産業環境データを搭載！CHIPが産業データのギャップを埋め、6Dポーズ推定を実現。

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマー グレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

LightOnOCR-2-1B: RLVR トレーニングに基づく高精度のエンドツーエンド OCR。Google ストリートビューの全国ストリートビュー画像: 世界クラスの地理マッピング技術に基づくオープンソースのパノラマ画像ライブラリ。

サム・アルトマン氏の人間による身元確認インフラへの賭けは世界的な規制上のジレンマに直面しており、10億人のユーザー目標を達成したのは2%のみである。

関連 ニュース

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェント エージェント エクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

TRELLIS.2: O-Voxel テクノロジを採用し、複雑な 3D ジオメトリとマテリアルを効率的に生成します。患者離脱予測データセット: 離脱リスクのある患者を特定するのに役立ちます。

具現化された知能に関するリソースの集大成：ロボット学習データセット、世界モデリングモデルのオンライン体験、NVIDIA、ByteDance、Xiaomi などの最新の研究論文。

3Dビジョンのブレークスルー：ByteSeedがDA3を発表。あらゆる視点からの視覚空間再構成が可能に。7万点以上の実世界の産業環境データを搭載！CHIPが産業データのギャップを埋め、6Dポーズ推定を実現。

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマー グレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

LightOnOCR-2-1B: RLVR トレーニングに基づく高精度のエンドツーエンド OCR。Google ストリートビューの全国ストリートビュー画像: 世界クラスの地理マッピング技術に基づくオープンソースのパノラマ画像ライブラリ。

サム・アルトマン氏の人間による身元確認インフラへの賭けは世界的な規制上のジレンマに直面しており、10億人のユーザー目標を達成したのは2%のみである。

関連 ニュース

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェント エージェント エクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

TRELLIS.2: O-Voxel テクノロジを採用し、複雑な 3D ジオメトリとマテリアルを効率的に生成します。患者離脱予測データセット: 離脱リスクのある患者を特定するのに役立ちます。

具現化された知能に関するリソースの集大成：ロボット学習データセット、世界モデリングモデルのオンライン体験、NVIDIA、ByteDance、Xiaomi などの最新の研究論文。

3Dビジョンのブレークスルー：ByteSeedがDA3を発表。あらゆる視点からの視覚空間再構成が可能に。7万点以上の実世界の産業環境データを搭載！CHIPが産業データのギャップを埋め、6Dポーズ推定を実現。

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマー グレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

LightOnOCR-2-1B: RLVR トレーニングに基づく高精度のエンドツーエンド OCR。Google ストリートビューの全国ストリートビュー画像: 世界クラスの地理マッピング技術に基づくオープンソースのパノラマ画像ライブラリ。

サム・アルトマン氏の人間による身元確認インフラへの賭けは世界的な規制上のジレンマに直面しており、10億人のユーザー目標を達成したのは2%のみである。

関連ニュース

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェントエージェントエクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマーグレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

関連ニュース

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェントエージェントエクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマーグレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

関連ニュース

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェントエージェントエクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマーグレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

関連ニュース

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェントエージェントエクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマーグレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。