HyperAIHyperAI

Command Palette

Search for a command to run...

Console

イベント概要 | 北京大学、清華大学、Zilliz、MoonBitがオープンソースについて議論。ビデオ生成、画像理解、ベクターデータベース、AIネイティブプログラミング言語などについて解説

5日前
情報
h.li
Featured Image

現在、AI業界は前例のない発展サイクルを経験しています。大規模モデルの大規模応用、AIネイティブソフトウェアシステムの再構築、そしてマルチモーダル基盤モデルの急速な進化は、学術界と産業界の境界を曖昧にしています。動画生成におけるオーディオビジュアル同期の要件の高度化、デバイス内ビジュアルモデルの効率的な推論最適化、次世代AIネイティブプログラミング言語の出現など、すべてが明確なトレンドを生み出しています。産学連携とオープンソースエコシステムは、AI時代において最も重要なイノベーションパラダイムになりつつあります。

過去数十年にわたり、科学研究が産業を牽引し、産業が科学研究を支えるというサイクルは一般的でした。しかし、モデル、計算能力、データが指数関数的に増加する今日の段階では、単一点のイノベーションではもはやニーズを満たすことができません。オープンソースは、ツールの共有からインフラストラクチャのコラボレーションへと進化し、大学、企業、コミュニティ、個々の開発者を結びつける重要なリンクとなっています。特に、ビジョン、マルチモーダル、ベクトルデータベース、AIプログラミング言語などの最先端分野において、オープンソースは技術普及のスピードを加速させるだけでなく、研究開発の組織化の方法も再形成し、より多くの「共創イノベーション」を生み出しています。

この文脈では、HyperAIは、COSCon'25の共同制作コミュニティとして、12月7日に「産業界と研究機関のオープンソースコラボレーションフォーラム」を主催しました。北京大学の研究員である Shi Baixin 氏、Zilliz のチーフオープンソースエバンジェリストである Li Chenglong 氏、清華大学の研究員補佐である Chen Hui 氏、MoonBit コミュニティのコア開発者である Lei Zhengyu 氏をお招きし、オープンソースエコシステムにおける最先端研究の実装パス、産業界の実践におけるオープンソースプロジェクトの反復的なパラダイム、そして今後 AI アプリケーションがコミュニティの力によってどのようにその境界を拡大し続けていくかについて議論できることを光栄に思います。

石百新:ビデオ生成とオーディオビジュアル同期技術の新しいパラダイムを実現するための全く新しいデータセットの構築

現在、動画生成技術は画質と短期的な時間的整合性の面で進歩を遂げており、高忠実度の短いクリップを生成し、ある程度のオーディオとビジュアルの同期を実現しています。しかしながら、従来の手法では、緯度と経度の歪み、視点のつなぎ合わせの不連続性、移動目標の一貫性の低さ、長期的な時間的安定性の不足といった問題が依然として残っています。さらに、オーディオとビジュアルコンテンツの間には高い相関関係があります。音声、音楽、環境音など、複数の種類の情報をモデルでリアルに捉えるためには、マルチトラック信号を理解できる生成フレームワークを構築する必要があります。

シー・バイシン先生

この文脈では、Shi Baixin 教授のチームは、オーディオとビジュアルの同期のためのインターバルフロー技術を提案しました。これにより、モデルは学習プロセス中に「前後の数フレームを見る」ことができ、時間を超えた注意のつながりを確立できます。内部ブロックモジュールを組み込むことで、モデルは異なるオーディオトラックに自己注意メカニズムを実装し、音声や環境音など、さまざまな種類のオーディオ情報をより正確に処理できます。音楽部分はよりグローバルな性質を持つため、チームはグローバル特徴注入による感情表現を実装し、音楽の雰囲気に基づいて対応するビジュアルをモデルが生成できるようにしました。

Shi Baixin 教授は、このプロジェクトでチームが成し遂げた画期的な成果を次のように紹介しました。

* 多機能なオーディオ同期ビデオ生成フレームワークを提案します。デミックスされたオーディオにより、正確なオーディオビジュアル マッピングと正確な時間調整が実現されます。

* 5 つの重複するサブセットで構成される、オーディオ同期ビデオ生成用の新しいデータセットが構築されました。約392,000の音声および動画セグメント(合計約1,200時間)が含まれています。このデータセットに基づいて、モデルは複数回の学習ラウンドで、顔のリップシンク、イベントタイミングの制御、感情的な雰囲気の表現を学習できます。

* 分離オーディオ トラックを処理するために、マルチ ストリーム時間制御ネットワークが提案されています。リップシンク、イベントのタイミング、感情的な雰囲気を正確にコントロールします。

「マルチストリーム時間制御によるオーディオ同期ビデオ生成」と題された関連する研究結果が NeurIPS 2025 に選出されました。

その上、Shi Baixin 教授のチームは、実際の移動ターゲットを含むパノラマビデオを生成する機能も実現し、長いビデオ、セマンティック編集、超解像度、視点補間などのタスクをサポートしています。この手法は、緯度を考慮したサンプリング技術を用いて、等距離長方形投影による画像歪みを効果的に低減します。同時に、回転セマンティックノイズ除去とピクセル単位の境界充填デコード戦略により、経度境界における視覚的なセマンティック不整合の問題にも対処します。

「PanoWan: 緯度/経度を考慮したメカニズムで拡散ビデオ生成モデルを 360° に引き上げる」と題された関連する研究結果も NeurIPS 2025 に掲載されています。

Li Chenglong: 最初のオープンソースベクターデータベースであるMilvusをベースにした商用サービスの構築

2019年10月Milvusは正式にオープンソース化されました。世界初のオープンソースベクターデータベースとして、1万社以上の企業のプロジェクトに導入され、GitHubでは4万個のスターを獲得しています。Milvusは豊富なデータ型をカバーし、浮動小数点、スパース、バイナリといった様々なベクトルデータをサポートしています。また、動的な削除や消去、瞬時の追加と取得、リアルタイムのディスク永続化も実現しています。さらに、タグ+ベクトルフィルタリング機能やキーワード+ベクトル検索機能もサポートしています。

李成龍先生

Li Chenglong教授はMilvusのアーキテクチャの進化をレビューし、2021年3月にリリースされたLTSバージョンでは、チームは、データの永続性、データのシャーディング、さまざまな異種ハードウェアのサポートに関して多くのエンジニアリング作業を行ってきました。しかし、このバージョンには依然として大きな欠点があります。データの書き込み、インデックス作成などはすべて1つのコンポーネントで行われ、単一マシンアーキテクチャを形成します。主な欠点は、データ規模が大きい場合やQPSが高い場合、スケーラビリティが非常に制限されるため、大企業の大容量データのニーズや、Double Elevenのような高クエリトラフィックのシナリオに対応することが困難になることです。

現在、チームは最新の Milvus 2.6 バージョンのアーキテクチャに対して、増分データを処理するための StreamingNode の追加、DataNode と IndexNode の統合、オブジェクト レイヤー メッセージ キューへの自社開発の Woodpecker の追加など、数多くの最適化を行っています。

オープンソース分野で成功を収めた後、Zilliz はそれを商業化する方法について検討し始め、最終的にオープンソース インフラストラクチャを商業化する方法は基本的に 1 つしかないことを発見しました。パブリッククラウド上で SaaS サービスを提供することを意味します。そのため、当社はオープンソースのMilvusに加え、MilvusをベースにしたフルマネージドのZilliz Cloudも構築しました。多くの既存のエンタープライズ顧客は、オープンソースプロジェクトMilvusを通じて当社を知り、それが製品の認知とその後のSaaSサービスの推進につながりました。

陳慧:効率的かつ正確なエッジサイド視覚理解を実現するための軽量バックボーンネットワークの構築

視覚理解技術は人工知能分野におけるホットなトピックであり、学術研究と応用価値の両方において重要な位置を占めています。現在、視覚理解技術はモバイルデバイス、ロボット、自動運転などの端末シナリオに広く応用されています。しかし、国産チップの演算能力不足や従来のモデル構造の深刻な冗長性といった制約に加え、複雑なシナリオにおける高い汎用性への要求から、効率的な視覚モデルの研究は特に急務となっています。

陳慧先生

実際の端末アプリケーションのニーズを満たすために、陳慧教授のチームは、基本モデルの汎用性と推論の効率性の両方に焦点を当て、軽量のバックボーンネットワークを構築して効率的で汎用的なビジュアル基本モデルを確立し、効率的で正確なエッジ視覚理解を実現しました。主な技術的側面は次の 3 つになります。

* 非対称ディープラーニング構造と軽量動的ネットワーク構造の設計。

* リアルタイムエンドツーエンドターゲット検出モデル YOLOv10;

* オープンドメインの一般的な視覚的理解。

深層学習モデルの対称的な「学習-推論」構造によって引き起こされる冗長性の問題に対処するために、チームは「非対称ディープラーニングアーキテクチャ」という概念を提案した。学習フェーズでは、より複雑な構造を用いてより効果的な学習を行い、推論フェーズでは等価変換を用いて計算パスを圧縮することで、軽量かつ迅速な導入を実現します。このフレームワークに基づき、チームはRepViT(CVPR 2024)やLSNet(CVPR 2025)など、影響力のあるバックボーンネットワークをいくつか開発しました。

ターゲット検出に関しては、チームは、YOLO シリーズ モデルの 2 つの大きな問題点、つまり、NMS 依存につながるマルチフレーム融合とモデル構造の冗長性を克服することに重点を置きました。これに対処するため、研究チームは一貫性のあるデュアルラベルマッチング戦略を提案しました。学習中は1対1検出ヘッドと1対多検出ヘッドの両方を同じ周波数で最適化し、推論中は1対1検出ヘッドのみを使用することで、ロスレスなNMSフリー検出と認識を実現します。 

さらに、モデル構造の冗長性に起因する高い計算複雑性に対処するため、効率性重視および精度重視のモデル設計手法が開発されました。これらの手法に基づき、NMSフリーで高効率かつ高精度な新世代ターゲット検出モデルYOLOv10(NeurIPS 2024)が構築され、性能と推論効率の最先端のバランスを実現しました。

* 論文を見る:

https://hyper.ai/papers/2405.14458

様々なシナリオへのモデルの適用に関して、従来の物体検出モデルは定義済みのラベルセットに制限されることが多く、現実世界のオープンシナリオへの適応が困難でした。この問題に対処するため、チームはオープンシナリオにおける視覚理解のための基盤モデルであるYOLOE(ICCV 2025)を発表しました。この大規模言語モデルは、一般化可能なクロスモーダル表現を提供し、構造的再パラメータ化技術を用いて推論の複雑さを軽減し、オープン検出とセグメンテーションを同時にサポートする統合モデルを実現します。テキストや画像を含むマルチモーダルなオープンキューをサポートすることで、従来の視覚理解モデルの限界を打ち破りました。

雷正宇:MoonBit、AIネイティブ時代のソフトウェア生産性を再構築するオープンソースプラクティス

MoonBitの探求は、ますます明確になっている業界の現実に端を発しています。大規模モデルはソフトウェア開発プロセス全体に深く統合されつつありますが、既存のエンジニアリングシステムはこの変化に完全には適応できていません。大規模モデルが開発プロセスに深く統合されるにつれ、ソフトウェアエンジニアリングは新たなパラダイムシフトを迎えています。AIはもはや単なるツールではなく、コード生成、リファクタリング、検証プロセスにおける中核的な構成要素になりつつあります。モデルは、従来の「人間が書いたコード+機械の支援」から「AIが生成、開発、レビュー」へと徐々に移行しています。 IDEA Research Institute の MoonBit チームは、このトレンドの先駆者です。

雷正宇博士

MoonBitコミュニティのコア開発者であるLei Zhengyu博士は、従来のプログラミング言語は初期設計においてAIとのインタラクションに最適化されておらず、AIが生成したコードは読みにくさ、デバッグの難しさ、再利用の難しさといった問題を抱えていることが多いと説明した。 MoonBitの目標は、AIネイティブプログラミング言語を使用して、インテリジェント時代に適応したソフトウェア制作システムを再構築することです。目標は、AI が生成したコードを人間が理解しやすくし、エンジニアリングの実践に沿ったものにし、開発、リファクタリング、デバッグの全体的な効率を向上させ、オープンソース形式で未来志向の AI クラウドネイティブ開発プラットフォームを構築することです。

Lei Zhengyu 氏はプレゼンテーションの中で、MoonBit の言語設計、コンパイラ ツールチェーン、エコシステム開発はすべて、次の 3 つの中核目標を重視していると述べました。

* 究極のコンパイル速度と生成ターゲットサイズを追求し、静的解析ツール機能を備えています。

* 学習曲線がスムーズで複雑さが低い。

* 慣習に依存しない豊かな表現力を構築します。

この方向に駆り立てられて、MoonBit コミュニティは、Web 開発、数値計算、オープンソース ミドルウェア SDK などのさまざまな分野で何千ものオープンソース パッケージを蓄積し、活気のあるコミュニティ エコシステムを形成しています。業界連携の面では、MoonBitはPython、JavaScript、WebAssemblyとの技術連携を積極的に進めています。自動カプセル化、クロスランゲージ呼び出し、統合モジュールインターフェースツールチェーンにより、開発者はMoonBit内でPythonの成熟したエコシステムを直接再利用できるだけでなく、JavaScriptコードをシームレスに呼び出したり、WASMコンポーネントを統合したりできるため、クロスランゲージシナリオにおける反復開発と互換性確保のコストを大幅に削減できます。