HyperAIHyperAI

Command Palette

Search for a command to run...

英伟达新模型OmniVinci问世:全模态理解性能刷新SOTA,数据效率提升6倍

英伟达が、全模態理解の新モデル「OmniVinci」を発表し、業界のSOTA(最良)を19.05ポイント上回る成績を記録した。このモデルは、視覚、音声、テキストの3つのモダリティを統合的に処理できる「全能型AI」を目指しており、人間が複数の感覚で世界を理解するのと同様の能力を備えることを目指している。特に注目すべきは、訓練データ量が既存のトップモデルの約1/6(0.2兆トークン)にとどまりながら、顕著な性能を達成した点。これにより、データ効率性と性能の両立が実現された。 OmniVinciの性能は、全模態理解の標準ベンチマーク「Dailyomni」で検証され、Qwen2.5-Omniを上回った。音声理解のMMARテストでは1.7ポイント、視覚理解のVideo-MMEテストでは3.9ポイントの優位性を示した。その背景には、英伟达が開発した3つの核心技術がある。まず「OmniAlignNet」は、視覚と音声信号の相補性を活かし、両者の対応を強化する。次に「時間埋め込み分群(TEG)」は、時間軸に沿って視覚・音声情報をグループ化し、時系列関係を効果的に学習。さらに「制約回転時間埋め込み(CRTE)」により、絶対時間情報の正確な理解が可能となり、時間的な整合性が大幅に向上した。 訓練プロセスでは、まず各モダリティごとに個別に学習し、その後、全モダリティを統合して共同学習する二段階アプローチを採用。また、既存の動画質問データセットを活用した「暗黙的全模態学習」により、音声と映像の連携理解能力がさらに強化された。 OmniVinciの公開は、多モダリティAIの研究と実用化を加速させる。英伟达は、このモデルのオープンソース提供を通じて、世界中の研究者や開発者に新たな基盤を提供し、より知能的なAIシステムの実現に貢献する意図を示している。

関連リンク

英伟达新模型OmniVinci问世:全模态理解性能刷新SOTA,数据效率提升6倍 | 人気の記事 | HyperAI超神経