Command Palette
Search for a command to run...

要約
機械的知能の進展には、人間が世界を知覚するように、複数のモダリティにわたる感知能力の開発が不可欠である。本研究では、強力でオープンソースのオムニモーダル大規模言語モデル(LLM)の構築を目指す「OmniVinci」を紹介する。モデルアーキテクチャとデータ収集の設計選定について、体系的に検討を行った。モデルアーキテクチャに関しては、以下の3つの主要な革新を提示する:(i) 視覚と音声の埋め込みを共通のオムニモーダル潜在空間内で強化する「OmniAlignNet」;(ii) 視覚信号と音声信号間の相対的時系列的整合性を捉える「Temporal Embedding Grouping」;(iii) オムニモーダル埋め込みに絶対的時系列情報を符号化する「Constrained Rotary Time Embedding」。また、2400万件の単モーダルおよびオムニモーダル会話データを生成する収集・合成パイプラインを提案する。我々の分析から、モダリティ間は知覚および推論の両面で相互に補完し合うことが明らかになった。提案モデル「OmniVinci」は、Qwen2.5-Omniと比較して、DailyOmni(跨モダリティ理解)で+19.05、MMAR(音声)で+1.7、Video-MME(視覚)で+3.9の性能向上を達成した一方で、訓練トークン数はわずか0.2Tに抑えられ、Qwen2.5-Omniの1.2Tに比べて6倍の削減を実現した。最後に、ロボティクス、医療AI、スマートファクトリーといった実用応用分野において、オムニモーダルモデルの優位性を実証した。