HyperAI超神经
2 days ago

与人工智能聊天:实时视频通信从人类到人工智能的意外转变

Jiangkai Wu; Zhiyuan Ren; Liming Liu; Xinggong Zhang
与人工智能聊天:实时视频通信从人类到人工智能的意外转变
摘要

人工智能视频聊天作为一种新的实时通信(RTC)范式,其中一方并非人类,而是一个多模态大语言模型(MLLM)。这使得人与人工智能之间的交互更加自然,仿佛在与一个真实的人面对面聊天。然而,这种模式对延迟提出了重大挑战,因为MLLM的推理过程占据了大部分响应时间,留给视频流传输的时间非常有限。由于网络的不确定性和不稳定性,传输延迟成为阻碍人工智能像真实人类一样进行交互的关键瓶颈。为了解决这一问题,我们提出了Artic,一个面向人工智能的实时通信框架,探索从“人类观看视频”到“人工智能理解视频”的网络需求转变。为了在保持MLLM准确性的同时大幅降低码率,我们提出了上下文感知视频流(Context-Aware Video Streaming),该方法能够识别视频中各个区域在聊天过程中的重要性,并几乎将码率全部分配给与聊天相关的区域。为了避免数据包重传,我们提出了抗丢包自适应帧率(Loss-Resilient Adaptive Frame Rate),该方法利用前一帧来替代丢失或延迟的帧,同时避免码率浪费。为了评估视频流质量对MLLM准确性的影响,我们构建了首个基准测试,命名为“退化视频理解基准测试”(Degraded Video Understanding Benchmark,DeViBench)。最后,我们讨论了一些关于人工智能视频聊天的开放性问题以及当前的解决方案。