Command Palette
Search for a command to run...
AIとのチャット:リアルタイムビデオ通信が人間からAIへと驚くべき転換を遂げたこと
AIとのチャット:リアルタイムビデオ通信が人間からAIへと驚くべき転換を遂げたこと
Jiangkai Wu Zhiyuan Ren Liming Liu Xinggong Zhang
概要
AIビデオチャットは、リアルタイム通信(RTC)の新しいパラダイムとして登場し、一方の参加者が人間ではなくマルチモーダル大規模言語モデル(MLLM)であるという特徴を持つ。これにより、人間とAIとのインタラクションは、まるで実際の人と対話しているように直感的になる。しかし、この方式はレイテンシーに対して大きな課題をもたらす。というのも、MLLMの推論処理が応答時間の大部分を占め、ビデオストリーミングに残される時間は極めて少ないからである。ネットワークの不確実性と不安定性により、伝送レイテンシーがAIが人間のように振る舞うことを妨げる主要なボトルネックとなる。これを解決するため、私たちは「Artic」というAI指向型のリアルタイム通信フレームワークを提案する。このフレームワークは、「人間がビデオを見ている」ことから「AIがビデオを理解している」ことへのネットワーク要件のシフトを探究するものである。MLLMの精度を維持しながらビットレートを大幅に削減するため、チャットにおいて各ビデオ領域の重要性を認識し、ビットレートをほぼすべてチャットに重要な領域に割り当てる「コンテキストを考慮したビデオストリーミング」を提案する。パケットの再送を避けるために、「ロスに強い適応的フレームレート(Loss-Resilient Adaptive Frame Rate)」を提案し、過去のフレームを用いて失われた/遅延したフレームを置き換えることで、ビットレートの浪費を防ぐ。ビデオストリーミング品質がMLLMの精度に与える影響を評価するために、最初のベンチマークとして「劣化ビデオ理解ベンチマーク(Degraded Video Understanding Benchmark、DeViBench)」を構築した。最後に、AIビデオチャットに関するいくつかの未解決課題と、現在進行中の解決策について議論する。