HyperAI초신경
2일 전

AI와 대화하기: 인간에서 AI로의 실시간 영상 통신의 예상치 못한 전환

Jiangkai Wu; Zhiyuan Ren; Liming Liu; Xinggong Zhang
AI와 대화하기: 인간에서 AI로의 실시간 영상 통신의 예상치 못한 전환
초록

AI 비디오 채팅은 실시간 통신(RTC)의 새로운 패러다임으로, 한 쪽의 참여자가 인간이 아니라 멀티모달 대규모 언어 모델(MLLM)인 경우를 말합니다. 이는 인간과 AI 간의 상호작용을 마치 실제 사람과 대화하는 듯하게 더 직관적으로 만듭니다. 그러나 이는 지연(latency)에 큰 도전을 제기합니다. MLLM 추론 과정이 대부분의 응답 시간을 차지하기 때문에, 비디오 스트리밍에 할당할 수 있는 시간이 매우 짧기 때문입니다. 네트워크의 불확실성과 불안정성으로 인해 전송 지연이 AI가 실제 사람처럼 작동하는 것을 방해하는 주요 장애물이 되고 있습니다. 이를 해결하기 위해, AI 중심의 실시간 통신 프레임워크인 Artic을 제안합니다. 이 프레임워크는 "사람이 영상을 시청하는" 네트워크 요구사항에서 "AI가 영상을 이해하는" 방향으로의 변화를 탐구합니다. MLLM의 정확도를 유지하면서도 비트레이트를 크게 줄이기 위해, 대화에서 각 영상 영역의 중요성을 인식하고, 해당 영역에 비트레이트를 거의 전적으로 할당하는 "맥락 인식형 비디오 스트리밍"을 제안합니다. 패킷 재전송을 피하기 위해, 이전 프레임을 활용하여 손실되거나 지연된 프레임을 대체하는 "손실에 강한 적응형 프레임 레이트" 기법을 제안합니다. 영상 스트리밍 품질이 MLLM 정확도에 미치는 영향을 평가하기 위해, 최초의 벤치마크인 "저하된 영상 이해 벤치마크(DeViBench)"를 구축하였습니다. 마지막으로 AI 비디오 채팅에 대한 일부 열린 문제와 현재 진행 중인 해결 방안에 대해 논의합니다.