HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Agent IA : Explorer les frontières de l'interaction multimodale

Abstract

Les systèmes d’intelligence artificielle multimodaux devraient devenir une présence omniprésente dans nos vies quotidiennes. Une approche prometteuse pour rendre ces systèmes plus interactifs consiste à les incarnés sous forme d’agents au sein d’environnements physiques et virtuels. Actuellement, les systèmes s’appuient sur des modèles fondamentaux existants comme éléments de base pour concevoir des agents incarnés. Intégrer ces agents dans de tels environnements facilite la capacité des modèles à traiter et interpréter des données visuelles et contextuelles, ce qui est essentiel à la création de systèmes d’intelligence artificielle plus sophistiqués et sensibles au contexte. Par exemple, un système capable de percevoir les actions des utilisateurs, le comportement humain, les objets environnants, les expressions auditives et le sentiment collectif d’une scène peut servir à informer et orienter les réponses de l’agent dans l’environnement donné. Afin d’accélérer la recherche sur l’intelligence multimodale fondée sur les agents, nous définissons le « IA d’agent » comme une catégorie de systèmes interactifs capables de percevoir des stimuli visuels, des entrées linguistiques et d’autres données ancrées dans l’environnement, et de produire des actions incarnées significatives. Plus précisément, nous explorons des systèmes visant à améliorer les agents grâce à la prédiction de l’action incarnée suivante, en intégrant des connaissances externes, des entrées multisensorielles et des retours humains. Nous soutenons que le développement de systèmes d’IA agente dans des environnements ancrés permet également de réduire les hallucinations des grands modèles fondamentaux ainsi que leur tendance à générer des sorties incohérentes avec l’environnement. Le domaine émergent de l’IA d’agent englobe les aspects plus larges d’incarnation et d’agentivité dans les interactions multimodales. Au-delà des agents agissant et interagissant dans le monde physique, nous imaginons un avenir où les utilisateurs pourront facilement créer n’importe quelle scène de réalité virtuelle ou simulation, puis interagir avec des agents incarnés au sein de cet environnement virtuel.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Agent IA : Explorer les frontières de l'interaction multimodale | Papers | HyperAI