HyperAIHyperAI

Command Palette

Search for a command to run...

FLUX.2-klein-4B: 蒸留による 4 段階の 1 秒未満の画像生成を実現し、コンシューマー グレードの GPU でのリアルタイム操作を可能にします。Vehicles OpenImages データセット: 車両の検出と位置特定に重点を置いています。

Featured Image

現在、主流の画像生成モデルは高品質な結果を生成できるものの、推論速度が遅く、メモリ要件が高く、インタラクションモードが「オフラインツール」の時代にとどまっているという問題を抱えています。ユーザーはプロンプトを入力した後に受動的に待つことしかできず、リアルタイムの応答やインタラクションを実現できません。これにより、リアルタイム設計やラピッドプロトタイピングなどのシナリオでの AI の適用が制限されます。

この文脈では、Black Forest Labs は、ステップ蒸留により推論ステップを 4 ステップに圧縮し、1 秒未満 (≤0.5 秒) のエンドツーエンドの推論を実現するオープンソースの FLUX.2-klein-4B モデルをリリースしました。統合アーキテクチャは、テキストから画像、画像から画像、そしてマルチ参照生成をサポートし、複数のモデルを切り替える手間を省きます。コンシューマーグレードのGPUで効率的に動作するために必要なビデオメモリは約13GBで、FP8/NVFP4量子化をサポートすることで、最大2.7倍の高速化を実現します。AI画像生成を「煩雑なオフラインツール」から、応答性に優れたリアルタイムコラボレーターへと変革し、リアルタイム設計やインタラクティブ編集といったシナリオに軽量かつ効率的なソリューションを提供します。

HyperAIのウェブサイトに「FLUX.2-klein-4B:高速画像生成モデル」が掲載されましたので、ぜひお試しください!

オンラインでの使用:https://go.hyper.ai/N7D6c

1月26日から1月30日までのhyper.ai公式ウェブサイトの更新の概要は次のとおりです。

* 高品質の公開データセット: 7

* 厳選された高品質のチュートリアル:6

* 今週のおすすめ論文: 5

* コミュニティ記事の解釈:5件

* 人気のある百科事典のエントリ: 5

2月締め切りのトップカンファレンス:6

公式ウェブサイトにアクセスしてください:ハイパーアイ

公開データセットの選択

1. 車両 OpenImages 車両画像データセット

Vehicles OpenImages は、Google の大規模な公開 OpenImages データセットから生まれたもので、車両の検出と位置特定に重点を置いており、車両検出モデルの迅速かつ効率的なトレーニングをサポートすることを目的としています。

直接使用します:https://go.hyper.ai/Y8nUj

データセットの例

2. 胸部X線肺炎データセット

胸部X線肺炎は、胸部X線画像から抽出された数値特徴のデータセットです。このデータセットは、各画像をグローバル強度統計、テクスチャ記述子(GLCM)、周波数領域特徴(FFT)、エッジベースメトリクス、ローカルバイナリパターン(LBP)特徴などの構造化された数値特徴に変換することで、統計分析と従来の機械学習をサポートします。

直接使用します:https://go.hyper.ai/RNgZD

3. メキシコ糖尿病(メキシコ糖尿病データセット)

Diabetes Mexicoは、メキシコ国立公衆衛生研究所(INSP)が公開した糖尿病データセットです。2024年国民健康栄養調査(ENSANUT)のデータに基づいており、メキシコ国民における糖尿病に関連する代謝リスク特性を評価することを目的としています。

直接使用します:https://go.hyper.ai/2L4uw

4. デリー大気汚染AQI(デリー大気質データセット)

デリー大気汚染AQIは、大気質分析と予測のための環境データセットです。このデータセットは、デリー首都圏の主要都市における1時間ごとの大気質と環境データを提供しており、汚染分析、時系列予測、機械学習アプリケーションに適しています。

直接使用します:https://go.hyper.ai/cNuok

5. LightOnOCR-mix-0126 テキスト転写データセット

LightOnOCR-mix-0126 は、LightOn がリリースした大規模な OCR テキスト転写データセットで、エンドツーエンドの OCR およびドキュメント理解モデルの監視を提供し、自然な順序で全ページの転写テキストを出力するように設計されています。

直接使用します:https://go.hyper.ai/tZRlI

6. ソナー信号(水中ソナー信号データセット)

Sonar Signalは、水中物体の分類に使用されるソナー信号のデータセットです。このデータセットは、ソナー信号が岩石から発生しているのか、坑道から発生しているのかを区別することを目的としたバイナリ分類タスクに適しています。

直接使用します:https://go.hyper.ai/uXIom

7. カーゲーム用のハンドジェスチャーラベル付きデータセット

Hand Gestures Labbledは、ジェスチャーベースのカーゲーム操作のための機械学習モデルを学習するために設計された、ジェスチャーベースのカーゲーム画像データセットです。このデータセットには、左、左、右、停止の4つのジェスチャーカテゴリーにわたる合計330枚の画像が含まれています。

直接使用します:https://go.hyper.ai/sZmIc

選択された公開チュートリアル

1. WeDLM: 高効率大規模言語モデルデコードフレームワーク

WeDLM(Window-based Efficient Decoding for Large Models)は、テンセントが発表した高効率な大規模言語モデルデコードフレームワークであり、次世代AI対話システムに超高速、インテリジェント、かつ高度に適応的な言語生成機能を提供するように設計されています。このフレームワークは革新的なウィンドウベースの並列デコードアーキテクチャを採用し、高品質なテキスト生成を維持しながらデコード速度を大幅に向上させます。その核となる技術的ブレークスルーは、エントロピー閾値決定と位置ペナルティメカニズムの統合にあり、長いシーケンスを生成する際に従来の自己回帰デコードが抱える速度ボトルネック問題を効果的に解決します。

オンラインで実行:https://go.hyper.ai/Cfahp

デモページ

2. FLUX.2-klein-4B: 超高速画像生成モデル

FLUX.2-klein-4Bは、Black-Forest-Labsの最新の超高速画像生成モデルです。Rectified-Flowアーキテクチャをベースとし、40億パラメータの精錬型Transformer設計を採用することで、テキストベースの画像編集機能とマルチ参照画像編集機能をコンパクトなモデルサイズに統合しています。必要なGPUメモリは約13GBで、コンシューマーグレードのGPUで1秒未満のエンドツーエンド推論速度を実現します。

オンラインで実行:https://go.hyper.ai/N7D6c

デモページ

3. DiagGym診断エージェント

上海交通大学と上海人工知能研究所のAI4Medチームがリリースした診断エージェント(7B、8B、14B)DiagAgentは、診断軌跡を積極的に管理し、最も有益な検査を選択し、検査の停止時期を決定し、正確な最終診断を提供します。 1回限りの回答しか提供しない従来の大規模医療モデルとは異なり、DiagAgentは関連する検査を推奨し、マルチターンの対話で診断を適応的に更新し、十分な情報が得られた場合にのみ最終診断を提供します。 DiagAgentは、エンドツーエンドのマルチターン強化学習(GRPO)を通じてDiagGym環境に最適化されています。 各インタラクションでは、エージェントは最初の相談から始まり、検査を推奨したりシミュレーション結果を受け取ったりしてDiagGymと対話し、最終診断を下す時期を決定します。

オンラインで実行:https://go.hyper.ai/FzOau

デモページ

4. Pocket-TTS: 高品質で軽量なストリーミングTTSシステム

Pocket-TTSは、Kyutai Labsがリリースした超軽量の音声合成モデルです。このモデルは低遅延とストリーミング出力に重点を置き、リソースが限られた環境やリアルタイムのインタラクションが求められるシナリオ(AIアシスタントなど)向けに高品質な音声生成機能を提供することを目指しています。

オンラインで実行:https://go.hyper.ai/CwgHo

デモページ

5. Tritonコンパイラチュートリアル

Triton は並列プログラミング用の言語とコンパイラであり、GPU ハードウェア上で最大のスループットで実行できるカスタム DNN 計算カーネルを効率的に記述するための Python ベースのプログラミング環境を提供するように設計されています。

オンラインで実行:https://go.hyper.ai/Xqd8j

6. TVMチュートリアル 0.22.0

Apache TVM は、CPU、GPU、機械学習アクセラレータ用のオープンソースの機械学習コンパイラ フレームワークであり、機械学習エンジニアがあらゆるハードウェア バックエンドで計算を効率的に最適化して実行できるように設計されています。

オンラインで実行:https://go.hyper.ai/s3yot

今週のおすすめ紙

1. 希少性への報酬:法学修士課程における創造的な問題解決のためのユニーク性を考慮した強化学習

本論文では、一意性を考慮した強化学習手法を提案する。この手法は、ロールアウトレベルで目的関数を設計し、大規模言語モデル(LLM)に基づくクラスタリングと逆クラスタリングのサイズを再重み付けすることで、希少な高レベル推論戦略に報酬を与える。これにより、数学、物理、医学推論ベンチマークにおいて、pass@1を犠牲にすることなく、解の多様性とpass@kの性能を大幅に向上させることができる。

論文リンク:https://go.hyper.ai/k5A3R

2. DeepResearchEval: ディープリサーチタスク構築とエージェント評価のための自動化フレームワーク

本論文では、DeepResearchEvalを提案する。これは、ロールドリブンアプローチを通じて現実的かつ複雑なディープリサーチタスクを生成し、適応型でタスク固有の品質評価とプロアクティブなファクトチェックメカニズムを用いて、大規模言語モデルに基づくエージェントを評価する自動化フレームワークである。これにより、引用文献なしで主張の検証が可能になり、多段階ネットワーク研究システムの信頼性の高い評価が可能となる。

論文リンク:https://go.hyper.ai/b92V4

3. アルゴリズムコード最適化のための制御された自己進化

本論文では、多様な初期化、フィードバック誘導型遺伝的演算、階層型メモリを通じて経験の再利用を可能にすることでコード生成効率を向上させる、制御された自己進化(CSE)手法を提案する。この手法は、EffiBench-Xベンチマークにおいて、様々なLLMバックボーンネットワークの効率的な探索と継続的な最適化を実現する。

論文リンク:https://go.hyper.ai/RJHUC

4. MMFormalizer: マルチモーダル自動形式化の実例

本論文では、適応型ローカリゼーションと知覚プリミティブを組み合わせて、数学的および物理的公理の形式的基礎を持つ命題を再帰的に構築し、古典力学、相対性理論、量子力学、熱力学などの分野での機械推論を可能にし、PHYX-AF ベンチマークでスケーラビリティを実証する、新しいマルチモーダル自動形式化フレームワークである MMFORMALIZER を提案します。

論文リンク:https://go.hyper.ai/mC7NC

5. MAXS: LLMエージェントによるメタ適応探索

本論文では、大規模言語モデル(LLM)エージェントのためのメタ適応型推論フレームワークであるMAXSを提案する。先読み計画と軌道収束メカニズムを導入することで、局所的近視眼性と推論の不安定性の問題を軽減する。さらに、優位性推定と一貫性に基づくステップサイズ選択と組み合わせることで、効率的で安定した高性能なマルチツール推論を実現する。

論文リンク:https://go.hyper.ai/Wrhke

コミュニティ記事の解釈

1. モルトボットから政策配当まで、トレンドの最前線に立つ「AIワンマンカンパニー」は、大きな力を持つ企業へと成長できるのか?

ChatGPT、AI設計ツール、インテリジェントデータ分析システムといった技術ツールの普及に伴い、スタートアップの世界では前例のない効率化革命が起こっています。最近話題となったClawdbot(現在はMoltrbotに改名)は、オープンソースのパーソナルアシスタントとして、2026年までに生産性を劇的に変革すると期待されています。「一流のLLM(法学修士)級」と謳われるこのAIエージェントは、シリコンバレーで大きな話題となり、GitHubスター数はリリース後わずか3日で57,500に達しました。さらに重要なのは、この新しい形態のスタートアップが政策的に積極的な支援を受けていることです。2016年には早くも「国務院のベンチャーキャピタルの持続的かつ健全な発展の促進に関する意見」が、資本力と経営経験を持つ個人が合法的に個人会社を設立し、ベンチャーキャピタル活動に従事することを明確に奨励していました。

レポート全体を表示します。https://go.hyper.ai/2hKRe

2. ロボット工学のスタートアップ企業であるSkild AIは、汎用基本モデルの開発のため、ソフトバンク、Nvidia、Sequoia Capital、ベゾスなどの参加を得て14億ドルを調達した。

2026年1月中旬、ロボット工学のスタートアップ企業であるSkild AIは、シリーズCの資金調達ラウンドで約14億ドルを調達し、企業価値が140億ドルを超えたと発表しました。このラウンドは日本のソフトバンクグループが主導し、NvidiaのNVentures、Macquarie Capital、Bezos Expeditions(Amazon創業者のジェフ・ベゾス氏が設立)などの戦略的投資家が参加しました。サムスン、LG、シュナイダーエレクトリック、Salesforce Venturesも参加しました。ロボットのハードウェアが進化を続け、応用シナリオが依然として非常に断片化されている現状において、ロボット製造以外の分野にも資金が集中し、ほぼ同時に資金が集まっています。これは、資本の利益主導型の性質をある程度反映しており、設立3年未満のこのスタートアップ企業が有望な道を選んだことを裏付けています。

レポート全体を表示します。https://go.hyper.ai/iYHbK

3. AlphaGenomeがNatureの表紙を飾りました!あらゆるモダリティと細胞タイプにおける変異の影響を1秒以内に予測します。

2025年6月、Google DeepMindはAlphaGenomeをリリースしました。AlphaGenomeモデルは、最大100万塩基対のDNA配列を入力として、その調節活性に関連する数千の分子特性を予測します。また、変異配列と非変異配列の予測値を比較することで、遺伝子変異や変異の影響を評価することもできます。AlphaGenomeの重要なブレークスルーの一つは、「配列からスプライスジャンクションを直接予測し、変異の影響予測に使用できる」ことです。メモリアル・スローン・ケタリングがんセンターのカレブ・ラロー博士は、「これはこの分野における画期的な成果です。初めて、長いコンテキスト、単一塩基精度、そして最高レベルのパフォーマンスを同時に備え、幅広いゲノムタスクをカバーするモデルを実現しました」と述べています。

レポート全体を表示します。https://go.hyper.ai/jgO8K

4. NVIDIA と他の企業は、100 万種の数十億の遺伝子に基づいて EDEN シリーズのモデルを構築し、最先端 (SOTA) のゲノムおよびタンパク質予測機能を実現しました。

プログラマブルバイオロジーの根本的な目標は、生体システムの合理的な設計と精密な制御を実現し、複雑な疾患に対する革新的な治療法を開発することです。しかしながら、このプロセスは長らく、生物システム固有の複雑さによって限界に直面してきました。マルチモーダルかつクロススケールの革新的な治療法設計においては、その汎用性は極めて不十分です。この根本的な限界を克服するため、Basecamp Research、NVIDIA、そして複数の主要な学術機関が共同で、メタゲノム基本モデルであるEDENシリーズを開発しました。

レポート全体を表示します。https://go.hyper.ai/jPS42

5. カリフォルニア大学は、完全接続ニューラル ネットワークに基づくオンチップ分光計を構築し、チップ スケールで 8 ナノメートルのスペクトル分解能を達成しました。

今日、スマートフォンのカメラはメガピクセルの時代を迎えていますが、依然としてプロ仕様の分光計のように物質の化学組成を分析することはできません。このギャップを埋める鍵は、スマートフォンなどのデバイスに、物質固有の「スペクトル指紋」を正確に読み取ることができるコアコンポーネント、つまり分光計が存在しないことです。物質分析の重要なツールである従来の分光計は、複合光を異なる波長のスペクトルに分離し、特徴的なスペクトル線から物質の組成を特定します。しかし、分光計には大きな課題があります。小型化のためには従来の分散構造を放棄する必要があるからです。分散構造がなければ、どのようにしてスペクトル情報を得ることができるのでしょうか?この課題を解決するため、カリフォルニア大学の研究チームは革新的な解決策を提案しました。標準的なシリコンフォトダイオードの表面に特殊な光子捕捉テクスチャ構造(PTST)を設計し、ノイズ耐性に優れた全結合型ニューラルネットワークを導入するというものです。

レポート全体を表示します。https://go.hyper.ai/bYwq8

人気のある百科事典の項目を厳選

1. 1秒あたりのフレーム数(FPS)

2. 逆ソート融合RRF

3. 視覚言語モデル(VLM)

4. ハイパーネットワーク

5. ゲート型注意

ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。

https://go.hyper.ai/wiki

主要な人工知能学会をワンストップで追跡:https://go.hyper.ai/event

上記は、今週編集者が選択したすべてのコンテンツです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、お気軽にメッセージを残すか、投稿してお知らせください。

また来週お会いしましょう!