HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA、マルチモーダルAI「OmniVinci」を発表 視覚・音声・テキストの統合理解でSOTA性能

NVIDIAが開発した「OmniVinci」は、画像、動画、音声、テキストの4つのモダリティを統合的に理解する次世代の大規模言語モデル(LLM)である。この研究では、モデルアーキテクチャとデータ構築の両面で革新を実現し、マルチモーダル理解の性能を大幅に向上させた。主な技術的革新として、視覚と音声の埋め込みを統合的なモダリティ空間で強固に整合させる「OmniAlignNet」、視覚と音声信号間の相対的時間関係を捉える「Temporal Embedding Grouping」、絶対時間情報を効果的にエンコードする「Constrained Rotary Time Embedding」の3つの仕組みを導入。これらの技術により、異なるモダリティ間のタイミングや意味の整合性を高め、より自然な連携を実現している。 また、2400万件の単モーダルおよびマルチモーダル会話データを自動合成・収集するパイプラインを構築。これにより、複数モダリティが相互に補完し合うことで、認識や推論の精度が向上することが実証された。モデルサイズは90億パラメータ(9B)であり、競合モデルであるQwen2.5-Omniに比べて訓練トークン数を6倍削減(0.2T対1.2T)しながらも、DailyOmni(クロスモーダル理解)で+19.05、Video-MME(視覚理解)で+3.9、MMAR(音声理解)で+1.7の性能向上を達成。 実用面では、ロボット工学、医療AI、スマートファクトリーなど、複数モダリティを活用する分野で優れた応用が示された。たとえば、動画から詳細な会話内容を抽出するプロンプトに対して、人物の服装や背景、発言内容、AI開発の進展について正確に解説。また、視覚的なナラティブ生成でも、ロボットがギフトを開けるシーンを詳細に描写し、感情や意図を含む自然な説明を生成する能力を示した。 OmniVinciは、AIが単なる情報処理ではなく、人間の知覚と意思疎通に近い理解を可能にする一歩を踏み出した。NVIDIAは、今後もマルチモーダルAIの実用化と、人間とAIの協働を支える基盤技術の開発を推進する。

関連リンク