スタイルとテーマの高品質な融合！USOフレームワークは、分離と報酬ベース学習によってこの両方を実現。1,000点のTCM古典を収録！華東科技大学は、AIによるTCM理解の向上を支援するMedChatZHをリリースしました。

10ヶ月前

AI 画像生成の分野では、スタイルと主題が衝突することが多く、同時に実現するのは困難です。スタイル主導で、類似したスタイルの芸術的表現を優先的に生成します。例えば、「キュビズム風のピカソの肖像画」を生成してほしいと依頼された場合、AIは色彩や筆遣いが一目でピカソの作風だとわかるようにすることを優先し、肖像画の細部は大幅に削減されます。テーマ主導型のアプローチは、テーマの一貫性の追求に重点を置いており、その中心的なタスクは「指定されたコンテンツを正確に生成する」ことです。「赤い蝶ネクタイをした猫」というプロンプトが与えられた場合、AIは生成された結果があなたが説明した被写体と一致していることを確認します。シーン設定が「オフィス」であることが求められる場合、生成された背景はぼやける可能性があります。

これに基づいて、ByteDance の UXO チームは、コンテンツとスタイルを分離して再構築するための統合フレームワークである USO を立ち上げました。このフレームワークは、大規模なトリプレットデータセットを構築し、分離学習スキームを使用してスタイルの特徴を同時に調整し、コンテンツとスタイルを分離し、スタイル報酬学習 (SRL) を導入してモデルのパフォーマンスをさらに向上させることで、テーマとスタイルの自由な組み合わせを可能にし、高い主題の一貫性、強力なスタイルの忠実度、自然でプラスチックではない感触を持つ理想的な画像を生成します。

USO は、タスク間の協調的分離を通じてモデルのパフォーマンスを向上させ、主題の一貫性とスタイルの類似性の両方においてオープンソースモデルの SOTA レベルに到達します。従来の画像生成におけるスタイルとテーマの分離を打破し、両方を実現するという目標を達成します。

現在、HyperAIの公式サイトでは「USO：統一されたスタイルと主題に基づく画像生成モデル」が公開されています。ぜひお試しください！

オンラインでの使用：https://go.hyper.ai/VWz1i

9月1日から9月5日までのhyper.ai公式サイトの更新内容を簡単にご紹介します。

* 高品質の公開データセット: 10

* 高品質なチュートリアルのセレクション: 5

* 今週のおすすめ論文：5

* コミュニティ記事の解釈：6件

* 人気のある百科事典のエントリ: 5

※9月締切：5日

公式ウェブサイトにアクセスしてください:ハイパーアイ

公開データセットの選択

1. MV3DPT マルチビュー 3D ポイントトラッキングデータセット

MV3DPTは、多視点任意3D点追跡タスク向けに特別に構築されたベンチマークデータセットです。複数のカメラ視点から動的なシーン内の任意3D点を安定的にオンライン追跡する研究の基盤を提供することを目的としています。このデータセットは、合成シーンと実シーンの両方をカバーし、複数の視点からのデータを融合することで、オクルージョン下でも堅牢な予測を可能にします。3D点追跡モデルの学習と評価に適しており、コンピュータービジョンやロボティクス分野で広く応用されています。

直接使用: https://go.hyper.ai/xs6Kt

2. StepEval 音声パラ言語理解評価データセット

StepEval Audio Paralinguisticは、StepFun AIチームが公開した音声パラ言語理解評価データセットです。音声に含まれるパラ言語情報（性別、年齢、イントネーション、感情など）を理解するAIモデルの能力を評価することを目的としています。

直接使用: https://go.hyper.ai/d65ah

3. Landslide4Sense 地すべりリモートセンシングベンチマークデータセット

Landslide4Senseは、地すべり検知のためのマルチソース衛星リモートセンシングベンチマークデータセットです。このデータセットは、2015年から2021年までの複数の地域における地すべり状況を網羅しています。128×128の画像ブロックに統合され、解像度は約10m/ピクセルです。各サンプルには14バンド（Sentinel-2マルチスペクトルB1～B12 + ALOS PALSAR由来の傾斜およびDEM）が含まれています。

直接使用: https://go.hyper.ai/nDDwN

4. AlphaEarthコア埋め込みデータセット

AlphaEarthは、Google DeepMindとGoogle Earth Engineチームによって公開された、地球規模の地理空間埋め込みデータセットです。複数のソースから収集されたリモートセンシングデータと地理データを、統一された再利用可能な時空間埋め込みに圧縮し、アノテーションが不足している状況でも、より効率的なマッピングとモニタリングを実現することを目的としています。

直接使用する：https://go.hyper.ai/EYcNz

5. AetherCodeトッププログラミングコンテストベンチマークデータセット

AetherCodeは、ByteDanceとMAPチームが公開したプログラミングコンテスト評価データセットです。IOI、ICPC、USACOといったトップコンテストの難問や、専門家によって検証された高品質なテストケースを通じて、大規模モデルのアルゴリズム推論能力とコーディング能力をより現実的に評価することを目的としています。

直接使用: https://go.hyper.ai/oBpK1

6. MedChatZH中国語医療会話コマンドデータセット

MedChatZHは、華東科技大学が公開した中国語医療会話データセットです。中医学古典の継続的な事前学習と医療指導データの微調整を通じて、中国語医療相談会話（特に中医学のシナリオ）の理解と生成能力を向上させることを目的としています。

直接使用: https://go.hyper.ai/gNRfB

7. HBFMID人体骨折画像データセット

HBFMIDは、骨折検出および分類タスクを支援するために設計された医用画像データセットです。このデータセットはマルチモーダル画像を取り込み、複数の身体部位をカバーし、様々な形式で表示できます。完全に強化され、明確にセグメント化されているため、骨折検出および分類モデルのトレーニングと評価に適しています。特に、医用画像解析とディープラーニング研究において価値があります。

直接アクセス: https://go.hyper.ai/IPIOE

8. HH-RLHF 人間の嗜好データセット

HH-RLHF は、Anthropic がリリースした人間の嗜好データセットで、主に有益/無害な人間の嗜好データ (PM データ) とレッドチームの対話データ (非 PM データ) の 2 つの部分で構成されています。

直接使用: https://go.hyper.ai/u98TI

9. UQ未解決問題データセット

UQデータセットは、スタンフォード大学がワシントン大学、ノースカロライナ大学などの機関と共同で公開した評価ベンチマークです。人間社会における現実的かつ難解な「未解決問題」を用いて、最先端の大規模モデルの推論能力、事実性、そしてブラウジング能力を評価することを目的としています。

直接使用: https://go.hyper.ai/BW5qz

10. Llama Nemotron VLM v1 マルチモーダル画像およびテキストデータセット

Llama Nemotron VLM v1は、NVIDIAがVLMの学習後処理用に公開した高品質な画像とテキストのデータセットです。NVIDIAが公開したLlama-3.1-Nemotron-Nano-VL-8B-V1文書理解モデル（文書質問応答、グラフ質問応答、AI2Dなどのシナリオをサポート）をサポートするために使用されます。

直接使用: https://go.hyper.ai/KVW6Z

選択された公開チュートリアル

1. Hunyuan-GameCraft-1.0: インタラクティブゲームビデオ生成フレームワーク

Hunyuan-GameCraft-1.0は、Tencent Hunyuanチームと華中科技大学が共同開発した、高度にダイナミックなインタラクティブゲームビデオを生成するためのフレームワークです。キーボードとマウスの入力を共有カメラ表現空間に統合することで、精密なモーションコントロールと複雑なインタラクティブ入力をサポートします。

オンラインで実行: https://go.hyper.ai/c48zV

2. Hunyuan-MT-7B: 翻訳モデルのデモ

Hunyuan-MT-7Bは、テンセントHunyuanチームがリリースした軽量翻訳モデルです。わずか70億個のパラメータを持ち、33言語と5つの華人系言語・方言間の翻訳をサポートしています。オンラインスラング、古詩、社交会話などを正確に理解し、文脈に基づいた自由な翻訳を行うことができます。事前学習から統合強化まで、学習チェーン全体をカバーする学習パラダイムを提案しています。

オンラインで実行: https://go.hyper.ai/nv9gJ

3. USO: 統一されたスタイルと主題に基づく画像生成モデル

USOは、ByteDanceのUXOチームが立ち上げた、コンテンツとスタイルを分離・再編成するための統合フレームワークです。あらゆるシーンにおいて、あらゆる被写体とあらゆるスタイルを自由に組み合わせることができ、被写体の一貫性、スタイルの忠実度、そして自然で造形的な印象のない画像を生成できます。実験では、被写体の一貫性とスタイルの類似性の両方において、オープンソースモデルのトップレベルに達していることが示されています。

オンラインで実行: https://go.hyper.ai/VWz1i

4. MiniCPM-V 4.5: 最強のエンドツーエンドマルチモーダルモデル

MiniCPM-V 4.5は、清華大学自然言語処理研究所とMianbi Intelligenceによってオープンソースで開発された、極めて効率的で大規模なデバイス上モデルです。画像、動画、光学式文字認識（OCR）など、複数の分野で優れた性能を発揮します。特に高リフレッシュレート動画の理解において飛躍的な進歩を遂げ、コンテンツを正確に認識することが可能です。このモデルはハイブリッド推論モードをサポートし、パフォーマンスと応答性のバランスを最適化しています。

オンラインで実行: https://go.hyper.ai/o3Ns5

5. BioEmu: 生成的ディープラーニングシステム

Microsoft ResearchのAI for Scienceチームが開発した生成型ディープラーニングシステム「BioEmu」は、タンパク質の動的構造と平衡コンフォメーションを効率的にシミュレートします。このシステムは、単一のGPUで1時間あたり数千個のタンパク質構造サンプルを生成でき、従来の分子動力学（MD）シミュレーションを大幅に上回る性能を発揮します。

オンラインで実行: https://go.hyper.ai/YV75B

💡安定拡散チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] にメモし、グループに参加してさまざまな技術的な問題について話し合い、アプリケーションの効果を共有してください。

今週のおすすめ紙

1. R-4B: バイモードアニーリングと強化学習によるMLLMにおける汎用自動思考能力のインセンティブ化

本論文では、自動推論および意思決定が可能なマルチモーダル大規模言語モデルR-4Bを提案する。このモデルは、問題の複雑さに応じて、思考プロセスを活性化するかどうかを適応的に決定することができる。その中核となる概念は、デュアルモードアニーリング機構を用いて、モデルに「思考」と「非思考」の両方の能力を与えることである。また、デュアルモード戦略最適化手法を用いることで、推論プロセスを活性化するかどうかの判断精度を向上させる。

論文リンク: https://go.hyper.ai/3Nq23

2. EmbodiedOneVision: 汎用ロボット制御のための視覚・テキスト・アクションのインターリーブ事前学習

本稿では、EO-1モデルとEO-Data1.5MデータセットからなるEO-Roboticsを提案します。EO-1は、視覚、テキスト、アクションをインターリーブした事前学習により、マルチモーダルな具体化推論とロボット制御タスクにおいて優れた性能を発揮する、統合された具体化基礎モデルです。

論文リンク: https://go.hyper.ai/cTtge

3. ASE: AI生成コードのセキュリティを評価するためのリポジトリレベルのベンチマーク

本稿では、安全なコード生成を評価するためのリポジトリレベルのベンチマークであるASE（AIコード生成セキュリティ評価）を提案します。ASEは、既知の脆弱性（CVE）を含む実際のオープンソースリポジトリからタスクを構築し、ビルドシステムやファイル間の依存関係を含むリポジトリレベルのコンテキストを完全に保持します。

論文リンク: https://go.hyper.ai/irGB2

4. Droplet3D: 動画からの常識的な事前分布で3D生成を促進

本論文では、ビデオモダリティを3Dアセット生成に適用する方法を探求し、データセット構築からモデル設計までの全プロセスを網羅しています。マルチビュー階層的アノテーションを備えた初の大規模ビデオデータセット「Droplet3D-4M」を提案し、画像入力と高密度テキスト入力をサポートする生成モデル「Droplet3D」モデルの学習を行います。

論文リンク: https://go.hyper.ai/BWwsV

5. VerlTool: ツール使用による総合的なエージェント強化学習に向けて

本論文では、ARLTをマルチモーダル観測ラベル（テキスト／画像／動画）を持つマルチラウンドの軌跡として定式化し、従来のシングルラウンドRLVRのパラダイム限界を打ち破る、統一されたモジュール型フレームワークVerlToolを提案する。研究者らは、数学的推論、知識質問応答、SQL生成、視覚的推論、Web検索、ソフトウェアエンジニアリングなどのタスクでモデルをトレーニングおよび評価し、統合されたトレーニングインフラストラクチャを提供しながら、専用システムに匹敵するパフォーマンスを達成した。

論文リンク: https://go.hyper.ai/NeCSC

AIフロンティアに関するその他の論文:https://go.hyper.ai/iSYSZ

コミュニティ記事の解釈

1. 地球規模の水質健全性診断：香港科技大学のチームは、沿岸地域のクロロフィル a の時空間分布を正確に予測するための時空間補間および予測モデルを提案しました。

沿岸生態系の健全性診断という課題に対処するため、香港科技大学の研究チームは時空間補間・予測（STIMP）モデルを提案しました。このモデルは、特別に設計されたモジュールを統合することで、クロロフィルaの時空間分布の正確な予測を実現し、時空間制約下での海洋クロロフィルa予測の新たな道筋を示しました。

レポート全文はこちら：https://go.hyper.ai/trOfg

2. GPT-3 ディレクターから Anthropic CTO に就任した Tom Brown 氏が、起業家としての経験、スケーリングの法則、チップサプライチェーンの依存性について語ります。

Y Combinatorとのインタビューで、AnthropicのCTOであるトム・ブラウン氏は、スタートアップからAI研究へと至った自身の道のりを振り返りました。ブラウン氏は「需要適合」と「スケーリング則」の影響について語り、OpenAIを離れてAnthropicを設立した理由を説明し、Claudeシリーズのモデルのイテレーション中に遭遇した課題とブレークスルーについて語り、マルチチップ戦略とセキュリティビジョンに関するAnthropicの考察を明らかにしました。

レポート全文はこちら：https://go.hyper.ai/d3CFR

3. 大気物理研究所が開発した CoTCN モデルにより、世界の海面水温予測の精度が大幅に向上し、1 日の SST 予測誤差はわずか 0.2°C になりました。

2025年CCFグローバルハイパフォーマンスコンピューティングカンファレンスにおいて、中国科学院大気物理研究所の林鵬飛研究員率いるチームが重要な研究成果を発表しました。チームは、TransformerとCNNを結合したフレームワークであるCoTCNディープラーニングモデルの開発に成功しました。このモデルは、短期的な全球海面水温予測において画期的な進歩をもたらし、海洋環境予測に重要な技術的支援を提供しました。

レポート全文はこちら：https://go.hyper.ai/Wb1yK

4. Meta AIらは、反復的な情報交換を可能にし、複数のタスクで最先端のパフォーマンスを実現する新しいタンパク質動的融合特性評価フレームワークFusionProtを提案しました。

テクニオン・イスラエル工科大学とMeta AIの研究チームは、FusionProtと呼ばれる新しいタンパク質表現学習フレームワークを提案しました。このフレームワークは、革新的な学習可能な融合トークンを用いて、タンパク質モデル構造（PLM）とタンパク質3D構造間で反復的に情報交換を行い、様々な生物学的タスクにおいて最先端のパフォーマンスを実現します。

レポート全文はこちら：https://go.hyper.ai/ZZq4Q

5. OpenAI/Googleからの高給引き抜きから突然の採用停止まで：Meta MSLの主要人員レビュー：半数は中国人で、751人のTP3T博士号取得者が主力

2025年8月中旬、ウォール・ストリート・ジャーナルが報じた。大規模なAI人材発掘を終えたばかりのMeta社が、人工知能部門の採用を突然停止したのだ。その後、多数の従業員が辞職したと報じられた。

レポート全文はこちら：https://go.hyper.ai/KMCvz

スタイルとテーマの高品質な融合！USOフレームワークは、分離と報酬ベース学習によってこの両方を実現。1,000点のTCM古典を収録！華東科技大学は、AIによるTCM理解の向上を支援するMedChatZHをリリースしました。

10ヶ月前

情報

マルチモーダル

データセット

現在、HyperAIの公式サイトでは「USO：統一されたスタイルと主題に基づく画像生成モデル」が公開されています。ぜひお試しください！

オンラインでの使用：https://go.hyper.ai/VWz1i

9月1日から9月5日までのhyper.ai公式サイトの更新内容を簡単にご紹介します。

* 高品質の公開データセット: 10

* 高品質なチュートリアルのセレクション: 5

* 今週のおすすめ論文：5

* コミュニティ記事の解釈：6件

* 人気のある百科事典のエントリ: 5

※9月締切：5日

公式ウェブサイトにアクセスしてください:ハイパーアイ

公開データセットの選択

1. MV3DPT マルチビュー 3D ポイントトラッキングデータセット

直接使用: https://go.hyper.ai/xs6Kt

2. StepEval 音声パラ言語理解評価データセット

直接使用: https://go.hyper.ai/d65ah

3. Landslide4Sense 地すべりリモートセンシングベンチマークデータセット

直接使用: https://go.hyper.ai/nDDwN

4. AlphaEarthコア埋め込みデータセット

直接使用する：https://go.hyper.ai/EYcNz

5. AetherCodeトッププログラミングコンテストベンチマークデータセット

直接使用: https://go.hyper.ai/oBpK1

6. MedChatZH中国語医療会話コマンドデータセット

直接使用: https://go.hyper.ai/gNRfB

7. HBFMID人体骨折画像データセット

直接アクセス: https://go.hyper.ai/IPIOE

8. HH-RLHF 人間の嗜好データセット

直接使用: https://go.hyper.ai/u98TI

9. UQ未解決問題データセット

直接使用: https://go.hyper.ai/BW5qz

10. Llama Nemotron VLM v1 マルチモーダル画像およびテキストデータセット

直接使用: https://go.hyper.ai/KVW6Z

選択された公開チュートリアル

1. Hunyuan-GameCraft-1.0: インタラクティブゲームビデオ生成フレームワーク

オンラインで実行: https://go.hyper.ai/c48zV

2. Hunyuan-MT-7B: 翻訳モデルのデモ

オンラインで実行: https://go.hyper.ai/nv9gJ

3. USO: 統一されたスタイルと主題に基づく画像生成モデル

オンラインで実行: https://go.hyper.ai/VWz1i

4. MiniCPM-V 4.5: 最強のエンドツーエンドマルチモーダルモデル

オンラインで実行: https://go.hyper.ai/o3Ns5

5. BioEmu: 生成的ディープラーニングシステム

オンラインで実行: https://go.hyper.ai/YV75B

今週のおすすめ紙

1. R-4B: バイモードアニーリングと強化学習によるMLLMにおける汎用自動思考能力のインセンティブ化

論文リンク: https://go.hyper.ai/3Nq23

2. EmbodiedOneVision: 汎用ロボット制御のための視覚・テキスト・アクションのインターリーブ事前学習

論文リンク: https://go.hyper.ai/cTtge

3. ASE: AI生成コードのセキュリティを評価するためのリポジトリレベルのベンチマーク

論文リンク: https://go.hyper.ai/irGB2

4. Droplet3D: 動画からの常識的な事前分布で3D生成を促進

論文リンク: https://go.hyper.ai/BWwsV

5. VerlTool: ツール使用による総合的なエージェント強化学習に向けて

論文リンク: https://go.hyper.ai/NeCSC

AIフロンティアに関するその他の論文:https://go.hyper.ai/iSYSZ

コミュニティ記事の解釈

レポート全文はこちら：https://go.hyper.ai/trOfg

レポート全文はこちら：https://go.hyper.ai/d3CFR

3. 大気物理研究所が開発した CoTCN モデルにより、世界の海面水温予測の精度が大幅に向上し、1 日の SST 予測誤差はわずか 0.2°C になりました。

レポート全文はこちら：https://go.hyper.ai/Wb1yK

レポート全文はこちら：https://go.hyper.ai/ZZq4Q

5. OpenAI/Googleからの高給引き抜きから突然の採用停止まで：Meta MSLの主要人員レビュー：半数は中国人で、751人のTP3T博士号取得者が主力

レポート全文はこちら：https://go.hyper.ai/KMCvz

Command Palette

スタイルとテーマの高品質な融合！USOフレームワークは、分離と報酬ベース学習によってこの両方を実現。1,000点のTCM古典を収録！華東科技大学は、AIによるTCM理解の向上を支援するMedChatZHをリリースしました。

公開データセットの選択

選択された公開チュートリアル

今週のおすすめ紙

コミュニティ記事の解釈

人気のある百科事典の項目を厳選

Command Palette

スタイルとテーマの高品質な融合！USOフレームワークは、分離と報酬ベース学習によってこの両方を実現。1,000点のTCM古典を収録！華東科技大学は、AIによるTCM理解の向上を支援するMedChatZHをリリースしました。

公開データセットの選択

選択された公開チュートリアル

今週のおすすめ紙

コミュニティ記事の解釈

人気のある百科事典の項目を厳選

関連 ニュース

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

深度推定精度が0.9に達したことで、MetaはVLM³を提案し、視覚モデルが本質的に3Dを学習する能力を持ち、Qwen3-VL-4Bに基づいて複数のタスクの統一的なモデリングを実現できることを示した。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

Command Palette

スタイルとテーマの高品質な融合！USOフレームワークは、分離と報酬ベース学習によってこの両方を実現。1,000点のTCM古典を収録！華東科技大学は、AIによるTCM理解の向上を支援するMedChatZHをリリースしました。

公開データセットの選択

選択された公開チュートリアル

今週のおすすめ紙

コミュニティ記事の解釈

人気のある百科事典の項目を厳選

関連 ニュース

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

深度推定精度が0.9に達したことで、MetaはVLM³を提案し、視覚モデルが本質的に3Dを学習する能力を持ち、Qwen3-VL-4Bに基づいて複数のタスクの統一的なモデリングを実現できることを示した。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

関連 ニュース

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

深度推定精度が0.9に達したことで、MetaはVLM³を提案し、視覚モデルが本質的に3Dを学習する能力を持ち、Qwen3-VL-4Bに基づいて複数のタスクの統一的なモデリングを実現できることを示した。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

関連 ニュース

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

深度推定精度が0.9に達したことで、MetaはVLM³を提案し、視覚モデルが本質的に3Dを学習する能力を持ち、Qwen3-VL-4Bに基づいて複数のタスクの統一的なモデリングを実現できることを示した。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

関連ニュース

関連ニュース

関連ニュース

関連ニュース