HyperAI超神経

VITA-1.5: マルチモーダルインタラクションモデルのデモ

1. チュートリアルの概要

建てる

VITA-1.5は、視覚、言語、音声を統合したマルチモーダル大規模言語モデルであり、南京大学とTencent Youtu Labの共同チームによって2025年1月7日にリリースされました。 GPT-4o と同等のレベルでリアルタイムの視覚および音声インタラクションを実現することを目指しています。 VITA-1.5 は、インタラクションの遅延を 4 秒から 1.5 秒に大幅に短縮し、ユーザー エクスペリエンスを大幅に向上させます。関連する論文の結果は以下の通りである。VITA-1.5: GPT-4oレベルのリアルタイム視覚・音声インタラクションに向けて”。

このチュートリアルでは、シングルカードの A6000 をリソースとして使用します。現在、AIインタラクションでは中国語と英語のみがサポートされています。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってページを更新してください。

2. Web ページに入ると、モデルと会話を開始できます。

Safari ブラウザを使用する場合、オーディオは直接再生されない場合があり、再生する前にダウンロードする必要があります。

利用手順

この教科書には、テキスト、音声、ビデオ、画像など、複数の AI インタラクション方法があります。

テキストインタラクション

オーディオインタラクション

画像/動画インタラクション

ビデオインタラクション

注意すべき点:

カメラを使用してビデオを録画する場合、質問が完了したらすぐにビデオを削除する必要があります。

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{fu2025vita,
  title={VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction},
  author={Fu, Chaoyou and Lin, Haojia and Wang, Xiong and Zhang, Yi-Fan and Shen, Yunhang and Liu, Xiaoyu and Li, Yangze and Long, Zuwei and Gao, Heting and Li, Ke and others},
  journal={arXiv preprint arXiv:2501.01957},
  year={2025}
}

@article{fu2024vita,
  title={Vita: Towards open-source interactive omni multimodal llm},
  author={Fu, Chaoyou and Lin, Haojia and Long, Zuwei and Shen, Yunhang and Zhao, Meng and Zhang, Yifan and Dong, Shaoqi and Wang, Xiong and Yin, Di and Ma, Long and others},
  journal={arXiv preprint arXiv:2408.05211},
  year={2024}
}