トレーニングコストを半減!OmniConsistencyは2.6K画像でSOTAを達成。Wan2.1-VACE-14Bはビデオ生成の新たな次元を切り開きます。

デジタルビジョン技術の急成長に伴い、オープンソースモデルは画像のスタイル化において大きな進歩を遂げてきました。しかし、スタイル化の一貫性という点では、商用モデルとの差は依然として大きく残されています。この技術的ボトルネックを打破するため、Show Labは革新的なOmniConsistencyを発表しました。これは、大規模な拡散トランスフォーマーを基盤とした一貫性プラグインであり、オープンソース手法と商用モデル間のパフォーマンス格差を埋めることを目指しています。
OmniConsistency は、スタイル学習と一貫性を切り離す 2 段階の漸進的学習戦略を採用し、スタイル劣化の問題を効果的に軽減します。視覚的な一貫性と美的品質が大幅に向上し、市販の最先端モデル GPT-4o に匹敵するパフォーマンスを実現します。
さらに、モデルのトレーニングと評価をサポートするために、研究チームは OmniConsistency 様式化された画像ペア データセットも構築しました。このデータセットは、GPT-4o を使用して 22 種類の異なる芸術スタイルの入力画像を合成し、ソース画像と様式化された画像に対応する説明的なテキスト注釈を生成して、多様な創造的ニーズに対応します。
現在、HyperAIは「OmniConsistency:GPT-4oレベルの文字スタイル変換モデル」と「OmniConsistencyスタイル化画像ペアデータセット」をリリースしました。ぜひお試しください。
OmniConsistency: GPT-4oレベルの文字スタイル転送モデル
オンラインでの使用:https://go.hyper.ai/WU5fY
OmniConsistency 様式化画像ペアデータセット
オンラインでの使用:https://go.hyper.ai/RxZk9
6月9日から6月13日まで、hyper.ai公式サイトが更新されました。
* 高品質の公開データセット: 10
* 高品質のチュートリアル: 13
* 今週のおすすめ論文:5
* コミュニティ記事の解釈:4件
* 人気のある百科事典のエントリ: 5
* 6月と7月に締め切りを迎えるトップカンファレンス:6
公式ウェブサイトにアクセスしてください:ハイパーアイ
公開データセットの選択
1. OpenThoughts3-1.2M推論データセット
OpenThoughts3-1.2M は、850,000 の数学の質問、250,000 のコードの質問、100,000 の科学の質問を含むオープンソースの推論データセットであり、注釈は QwQ-32B モデルを使用して完成されています。
直接使用します:https://go.hyper.ai/1u77Q

2. OpenThoughts2-1M推論データセット
このデータセットはOpenThoughts-114kデータセットをベースに、OpenR1などの既存の数学・コード推論データデータセットを追加したものです。このデータには、数学、科学、コード、パズルなど、100万件の高品質な例が含まれています。このデータセットで学習したOpenThinker2モデルの性能は、DeepSeek-R1-Distillモデルに匹敵します。
直接使用します:https://go.hyper.ai/FK1Z3

3. OmniConsistency 様式化画像ペアデータセット
OmniConsistencyは、画像のスタイル化とクロスモーダル一貫性学習に焦点を当てた、大規模なマルチスタイル画像ペアデータセットです。画像生成、スタイル転送、マルチモーダルモデル学習のための標準化されたリソースを提供することを目的としています。このデータセットは、漫画、油絵、伝統芸術、ピクセルアートなど、22種類の異なるアートスタイルをカバーしており、多様なクリエイティブニーズに対応します。
直接使用します:https://go.hyper.ai/RxZk9
4. Nemotron-Personas キャラクターデータセット
このデータセットには、現実世界の人口統計、地理的分布、性格特性に基づいて人工的に合成されたキャラクターが含まれており、人口の多様性と豊かさを捉えるように設計されています。名前、性別、年齢、経歴、婚姻状況、学歴、職業、居住地などの属性に関連付けられた統計情報を備えた、この種のデータセットとしては初めてのものです。
直接使用します:https://go.hyper.ai/uwpRH
5. VCBench 数学的推論ベンチマークデータセット
VCBenchは、明示的な視覚的依存性を持つマルチモーダル数学的推論を評価するために設計されたベンチマークデータセットです。このデータセットには、1,720の質問と回答のペアと合計6,697枚の画像が含まれています。
直接使用します:https://go.hyper.ai/4Ck1t
6. AudioTrust オーディオベンチマークデータセット
このデータセットは、大規模な音声テキストベンチマークデータセットです。大規模音声モデル向けにカスタマイズされた初の多次元信頼性評価ベンチマークであるAudioTrustは、音声大規模言語モデル(ALLM)の多次元信頼性の評価に重点を置いています。
直接使用します:https://go.hyper.ai/WgJSW
7. LEXam 法的推論ベンチマークデータセット
このデータセットには、スイスのチューリッヒ大学法学部の様々なコースとレベル(学部および修士課程)の実際の法律試験340問が含まれており、スイス法、欧州法、国際法、法理論、法史を網羅しています。データセットには合計4,886問が含まれており、そのうち2,841問は長文回答式、2,045問は多肢選択式です。
直接使用します:https://go.hyper.ai/qYpoL
8. ReasonMap トラフィックグラフ推論ベンチマークデータセット
ReasonMapは、画像内の空間関係と経路推論に重点を置いています。高解像度の交通地図(主に地下鉄路線図)に焦点を当てた初のマルチモーダル推論ベンチマークであり、大規模モデルが画像内のきめ細かな構造化空間情報を理解する能力を評価するように設計されています。
直接使用します:https://go.hyper.ai/5ejzs
9. 中国語-LiPSマルチモーダル音声認識データセット
Chinese-LiPSは、「リップリーディング情報+スライド意味情報」を組み合わせた中国語初のマルチモーダル音声認識データセットとして、中国語の説明、科学普及、教育、知識普及などの複雑な文脈をカバーし、中国語マルチモーダル音声認識技術の発展を促進することに尽力しています。
直接使用します:https://go.hyper.ai/uaDMt
10. 脳腫瘍データセット
このデータセットは、脳腫瘍のMRIセグメンテーションおよび分類データセットであり、脳腫瘍の医用画像解析のための高品質なデータサポートを提供することを目的としており、脳腫瘍のセグメンテーションおよび分類タスクに適しています。データには約5,000枚のMRIスライスが含まれています。
直接使用します:https://go.hyper.ai/8qq5w
選択された公開チュートリアル
今週は、質の高い公開チュートリアルを 4 つのカテゴリにまとめました。
*ビデオ生成チュートリアル: 3
* 画像処理チュートリアル: 3
*音声生成チュートリアル:2
*大規模モデル展開チュートリアル: 2
*AI for Scienceチュートリアル:2
ビデオ生成チュートリアル
1. ComfyUI Hunyuanカスタムビデオ生成ワークフローチュートリアル
HunyuanCustomは、マルチモーダルなカスタム動画生成フレームワークです。Hunyuan Video生成フレームワークをベースとした、トピックの一貫性を中心とする、マルチモーダルで条件付き制御可能な生成モデルです。テキスト、画像、音声、動画の入力を条件として、トピックの一貫性を持つ動画の生成をサポートします。HunyuanCustomのマルチモーダル機能により、多くの下流タスクを実行できます。
このチュートリアルでは、リソースとしてRTX 4090カード1枚を使用し、ビデオ生成には約10分かかります。より良い生成品質を得るには、80GBのメモリを搭載したGPUの使用を推奨します。
オンラインで実行:https://go.hyper.ai/Vw6bJ

2. ComfyUI Wan2.1-VACE-14B 画像から動画へのワークフローチュートリアル
このモデルはTongyi Wanxiang V2.1をベースに学習されており、複数のタスクを柔軟に組み合わせることができる業界初の動画AIツールです。動画生成から洗練された編集まで、すべてのプロセスをワンストップで完了できます。テキストから動画への変換、画像から動画への変換、動画の最初と最後のフレームからの変換など、様々な処理をサポートします。
このチュートリアルではA6000カードを1枚使用します。ビデオの生成には約30分かかります。より高性能なコンピューティングパワーのご使用をお勧めします。
オンラインで実行:https://go.hyper.ai/4ULKi
3. Vchitect-2.0 ビデオ拡散モデルデモ
このモデルは、20億のパラメータを備えた革新的な並列Transformerアーキテクチャ設計を使用し、テキストプロンプトに基づいてスムーズで高品質のビデオコンテンツを生成できます。
このチュートリアルでは、シングルカードの A6000 をリソースとして使用します。これをワンクリックで展開して、カスタム ビデオを生成できます。
オンラインで実行:https://go.hyper.ai/r6OC2
画像処理チュートリアル
1. JoyCaption ベータ 1 字幕ビジュアル言語モデル デモ
このモデルは、画像のスタイル、コンテンツ、人種、性別、性的指向など、幅広い要素をカバーし、最小限のフィルタリングで世界のあらゆる側面を理解しながら、違法コンテンツはサポートしません。ユーザーは、ソーシャルメディアの投稿や商品リストなど、さまざまなアプリケーションシナリオに合わせて、様々なモードとプロンプトを使用して説明的なキャプションを生成できます。
このチュートリアルでは、RTX 4090カードを1枚使用しています。リンクを入力すると、コンテンツにぴったりの字幕が生成されます。
オンラインで実行:https://go.hyper.ai/13wrE
2. 何でも説明できるモデルデモ
このモデルは、ユーザーが指定した領域(点、ボックス、落書き、マスク)に基づいて詳細な説明を生成することができます。動画コンテンツの場合、任意のフレームの領域に注釈を付けるだけで、完全な説明を取得できます。
このチュートリアルでは、リソースとしてRTX 4090カード1枚を使用します。ワンクリックで展開でき、必要な箇所をクリックするだけで設定できます。
オンラインで実行:https://go.hyper.ai/aitMs
3. OmniConsistency: GPT-4oレベルの文字スタイル転送モデル
OmniConsistencyは、視覚的な一貫性と美的品質を大幅に向上させ、最先端の商用モデルGPT-4oに匹敵するパフォーマンスを実現します。スタイルの一貫性という点で、オープンソースモデルと商用モデル間のパフォーマンスギャップを埋め、AI作成のための低コストで制御性の高いソリューションを提供し、画像生成技術の民主化を促進します。また、その互換性とプラグアンドプレイ機能により、開発者やクリエイターにとって利用のハードルが低くなります。
このチュートリアルのコンピューティングリソースには、RTX A6000カード1枚を使用しています。リンクにアクセスして、自分だけのオリジナル作品を作成しましょう。
オンラインで実行:https://go.hyper.ai/WU5fY

音声生成チュートリアル
1. Stable-audio-open-small: オーディオ生成モデルのデモ
Stable-audio-open-smallは、高品質なショートオーディオコンテンツを効率的に作成することに重点を置いています。高度な拡散モデル技術に基づき、テキストプロンプトを通じて、ミュージッククリップ、効果音、アンビエントサウンド(ドラムループ、メロディクリップ、自然なサウンドスケープなど)など、多様なオーディオを迅速に生成できます。音楽制作、ゲーム開発、映画やテレビのサウンドトラックなど、様々な用途に適しています。
このチュートリアルでは、シングル カード A6000 のリソースを使用し、ワンクリック展開で独占的な音楽を作成します。
オンラインで実行:https://go.hyper.ai/jl9Y3
2. Chatterbox TTS: 音声合成デモ
Chatterboxは、誇張された感情表現をサポートする初のオープンソースTTSモデルです。5億パラメータのLLaMAアーキテクチャをベースとし、50万時間以上の厳選された音声データを用いて学習されています。多言語・多音色生成に対応し、その性能はElevenLabsなどのクローズドソースシステムを凌駕します。中核機能の一つであるゼロサンプル音声クローニングは、複雑な学習プロセスを必要とせず、わずか5秒間の参照音声から非常にリアルなパーソナライズ音声を生成できます。
このチュートリアルで使用するコンピューティングリソースは、RTX 4090カード1枚です。モデルのプロンプトは英語のみに対応しています。ワンクリックで自分の声を複製してみましょう。
オンラインで実行:https://go.hyper.ai/KAF8メートル
大規模モデルの展開チュートリアル
1. DeepSeek-R1-0528-Qwen3-8Bのワンクリック展開
このモデルは80億個のパラメータを有します。DeepSeek-R1-0528の複雑な推論機能を、より小型のQwen3-8Bベースモデルに統合することで、Qwen3の多言語対応機能とDeepSeek-R1の推論最適化を融合しています。その性能はGPT-4に匹敵し、効率的なシングルカード展開をサポートしているため、学術研究や企業アプリケーションに最適です。
このチュートリアルで使用するコンピューティングリソースは、RTX 4090カード1枚です。リンクを入力すると、強化された大規模モデルをワンクリックでデプロイできます。
オンラインで実行:https://go.hyper.ai/UnQEa
2. vLLM+Open WebUIはAM-Thinking-v1稠密言語モデルを展開します
AM-Thinking-v1は、推論能力の強化に重点を置いた32Bの高密度言語モデルです。このモデルは推論ベンチマークにおいて優れたパフォーマンスを示し、DeepSeek-R1、Qwen3-235B-A22B、Seed1.5-Thinkingといった大規模MoEモデルや、Nemotron-Ultra-253B-v1といったより大規模高密度モデルに匹敵します。
このチュートリアルでは、デュアルカード A6000 リソースを使用し、ワンクリックで 32B の高密度言語モデルをクローン化して体験します。
オンラインで実行:https://go.hyper.ai/mbAMu
科学のための AI チュートリアル
1. VASP機械学習力場の微調整
VASPは、電子構造計算や量子力学分子動力学など、第一原理に基づいた原子スケールの物質モデリングを行うためのコンピュータプログラムです。このチュートリアルでは、機械学習ハイパーパラメータを連続的に変化させることで、対応するフォノンスペクトルの系列を生成し、それに対応する最適な機械学習力場パラメータファイルを取得します。
オンラインで実行:https://go.hyper.ai/2DmyQ
2. VASP機械学習力場はシリコンフォノンスペクトルを計算する
Phonopyは、フォノンバンド構造、熱特性、群速度、その他フォノン関連量を調和波および準調和波レベルで計算するためのPythonツールキットです。このチュートリアルでは、自動化されたスクリプトを用いて、機械学習による力場フォノンスペクトルの計算プロセスを説明します。
オンラインで実行:https://go.hyper.ai/tmnQ4
今週のおすすめ紙
1. MiMo-VL技術レポート
本稿では、汎用的な視覚理解とマルチモーダル推論において最先端の性能を実現する強力な視覚言語モデルである、2つのオープンソースモデル、MiMo-VL-7B-SFTとMiMo-VL-7B-RLを紹介します。MiMo-VL-7B-RLは、評価対象となった40のタスクのうち35でQwen2.5-VL-7Bを上回り、OlympiadBenchで59.4というスコアを獲得しました。これは、最大780億のパラメータを持つモデルを凌駕するものです。さらに、本稿では、再現性を高め、この分野の発展に貢献するために、50以上のタスクをカバーする包括的な評価ツールセットも提供しています。
論文リンク:https://go.hyper.ai/0v2Lr
2. 明日も真実だろうか?多言語対応のエバーグリーン質問分類で信頼性の高いQAを向上
大規模言語モデル(LLM)は、質問応答(QA)タスクにおいてしばしば幻覚的な結果をもたらします。重要でありながら十分に研究されていない要因として、質問の時間的性質、すなわち質問がエバーグリーン(回答が時間の経過とともに安定している)か、可変(回答が時間の経過とともに変化する)かという点があります。本稿では、評価と学習の両方をサポートする、エバーグリーンラベルを備えた初の多言語QAデータセットであるEverGreenQAを紹介します。EverGreenQAを用いて、12の最新の大規模言語モデルをベンチマークし、質問の時間的性質を明示的に(言語的判断を介して)エンコードするのか、それとも暗黙的に(不確実性シグナルを介して)エンコードするのかを評価します。
論文リンク:https://go.hyper.ai/UnDRj
3. MambaNeXt-YOLO: リアルタイム物体検出のためのハイブリッド状態空間モデル
本稿では、精度と効率のバランスをとった新しいターゲット検出フレームワーク、MambaNeXt-YOLOを提案します。その具体的な貢献には、以下の3つの側面が含まれます。MambaNeXtモジュール:畳み込みニューラルネットワーク(CNN)とMamba状態空間構造を組み合わせたハイブリッド設計。局所的な特徴を効果的に抽出し、長距離依存性をモデル化できます。MAFPN(Multi-branch Asymmetric Fusion Pyramid Network):異なるサイズのターゲットのマルチスケール検出能力を向上させるための強化された特徴ピラミッド構造。エッジデバイス向けの効率最適化:事前学習を一切行わず、PASCAL VOCデータセットで66.6%のmAPと31.9 FPSの推論速度を達成し、NVIDIA Jetson Xavier NXやOrin NXなどのエッジデバイスへの効率的な展開をサポートします。
論文リンク:https://go.hyper.ai/FGaro
4. ComfyUI-Copilot: 自動化ワークフロー開発のためのインテリジェントアシスタント
本稿では、ComfyUIのユーザビリティと効率性を向上させるために設計された、大規模な言語モデルベースのプラグインであるComfyUI-Copilotを紹介します。ComfyUI-Copilotシステムの中核は、タスク割り当てを担う中央アシスタントエージェントと、異なる目的のタスクを担当する複数の専門ワーカーエージェントを含む階層型マルチエージェントフレームワークを採用しています。その結果、ComfyUI-Copilotはノードの正確な推奨とワークフロー開発の加速を実現できることが示されました。
論文リンク:https://go.hyper.ai/n0WyZ
5. Prot42: 標的を考慮したタンパク質結合剤生成のための新しいタンパク質言語モデルファミリー
本論文では、膨大な量のラベルなしタンパク質配列に基づいて事前学習された、新しいタンパク質言語モデルファミリーであるProt42を提案します。Prot42はデコーダーのみを搭載したアーキテクチャを採用し、自然言語処理の最新技術を活用し、タンパク質の進化、構造、機能を深く捉えることができます。これにより、言語ベースの計算タンパク質設計能力が大幅に向上します。
論文リンク:https://go.hyper.ai/nHOJA
AIフロンティアに関するその他の論文:https://go.hyper.ai/iSYSZ
コミュニティ記事の解釈
1. 8k長の配列モデリング、タンパク質言語モデルProt42は、標的タンパク質配列のみを使用して高親和性バインダーを生成することができる
アブダビのInception AI InstituteとシリコンバレーのCerebras Systemsの共同研究チームは、タンパク質配列情報のみに基づき、3D構造の入力を必要としない初のタンパク質言語モデル(PLM)ファミリーであるProt42を開発しました。Prot42は、長鎖配列モデリングと高親和性バインダー生成を可能にし、タンパク質設計分野に画期的なブレークスルーをもたらします。
レポート全体を表示します。https://go.hyper.ai/UMKY8
AIコンパイラの上流と下流をめぐるイノベーションと実践は次々と生まれ、この分野への注目も高まっています。最先端の研究と応用シナリオをより密接に結びつけるため、HyperAIは7月5日に北京で第7回Meet AI Compiler Technology Salonを開催します。第7回2025 Meet AI Compiler Technology Salonは、7月5日に北京のGarage Coffeeで開催されます。
レポート全体を表示します。https://go.hyper.ai/QM1xm
3. ICML2025に選ばれた清華大学/人民大学は、統合バイオ分子動力学シミュレータUniSimを提案した。
清華大学の劉楊教授のグループと中国人民大学高陵人工知能学院の黄文兵教授のグループは共同で、統一バイオ分子時間粗大化動力学シミュレーターUniSimを提案し、初めて分子タイプ(小分子、ペプチド、タンパク質)と化学環境にわたる統一時間粗大化動力学シミュレーションを実現しました。
レポート全体を表示します。https://go.hyper.ai/gQ1ob
4. 86,000個のタンパク質構造データに基づき、量子力学計算を組み合わせた機械学習手法を用いて、69個の新しい窒素-酸素-硫黄結合を発見した。
ゲオルク・アウグスト大学の研究チームは、革新的な計算生物学アルゴリズム「SimplifiedBondfinder」を開発し、86,000以上の高解像度X線タンパク質構造を体系的に分析し、これまで観察されたことのない、アルギニン(Arg)-システインとグリシン(Gly)-システインの間に形成される新しいタイプのNOS結合を発見しました。
レポート全体を表示します。https://go.hyper.ai/nurdR
人気のある百科事典の項目を厳選
1. DALL-E
2. 相互ソート融合RRF
3. パレートフロント
4. 大規模マルチタスク言語理解MMLU
5. 対照学習
ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。
会議の締め切りは6月~7月です
6月19日 7:59:59 ICDE 2026
7月2日 7:59:59 2026年
7月11日 7:59:59 ポピュラリティ 2026
7月15日 7:59:59 ソーダ2026
7月18日 7:59:59 シグモッド 2026
7月19日 7:59:59 ICSE2026
主要な人工知能学会をワンストップで追跡:https://go.hyper.ai/event
上記は、今週編集者が選択したすべてのコンテンツです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、お気軽にメッセージを残すか、投稿してお知らせください。
また来週お会いしましょう!