HyperAI
il y a 2 jours

Chat avec l'IA : La tournure surprenante de la communication vidéo en temps réel passant d'un humain à une IA

Jiangkai Wu; Zhiyuan Ren; Liming Liu; Xinggong Zhang
Chat avec l'IA : La tournure surprenante de la communication vidéo en temps réel passant d'un humain à une IA
Résumé

L'IA en vidéoconférence émerge comme un nouveau paradigme de la communication en temps réel (RTC), où un des participants n'est pas un humain, mais un Modèle de Langage Multimodal de Grande Taille (MLLM). Cela rend l'interaction entre les humains et l'IA plus intuitive, comme si l'on discutait en face à face avec une personne réelle. Cependant, cela pose des défis importants en termes de latence, car l'inférence du MLLM représente la majeure partie du temps de réponse, laissant peu de temps pour le streaming vidéo. En raison de l'incertitude et de l'instabilité du réseau, la latence de transmission devient un goulot d'étranglement critique qui empêche l'IA d'agir comme une personne réelle. Pour résoudre ce problème, nous proposons Artic, un cadre de communication en temps réel orienté vers l'IA, explorant le changement de besoins réseau, passant de « l'humain qui regarde la vidéo » à « l'IA qui comprend la vidéo ». Pour réduire le débit binaire de manière significative tout en maintenant l'exactitude du MLLM, nous proposons une vidéo streaming consciente du contexte, qui identifie l'importance de chaque région de la vidéo pour la conversation et alloue presque exclusivement le débit binaire aux régions pertinentes pour la conversation. Pour éviter la retransmission des paquets, nous proposons un taux d'images adaptatif résistant aux pertes, qui utilise les images précédentes pour remplacer les images perdues ou retardées, tout en évitant un gaspillage de débit binaire. Pour évaluer l'impact de la qualité du streaming vidéo sur l'exactitude du MLLM, nous avons construit le premier benchmark, nommé Benchmark de compréhension de vidéos dégradées (DeViBench). Enfin, nous discutons de certaines questions ouvertes et des solutions en cours pour la vidéoconférence avec l'IA.