HyperAIHyperAI

Command Palette

Search for a command to run...

Console

エージェントAI:マルチモーダルインタラクションの地平を探索する

Abstract

マルチモーダルAIシステムは、私たちの日常生活中に広く普及するものと予想される。こうしたシステムをよりインタラクティブにするための有望なアプローチとして、物理的・仮想的な環境内にエージェントとして具現化する方法がある。現在のところ、システムは既存のファウンデーションモデルを、具現化されたエージェントを構築する基本的な構成要素として活用している。このような環境内にエージェントを埋め込むことで、モデルが視覚的データや文脈情報を処理・解釈する能力が向上し、より高度で文脈に配慮したAIシステムの構築に不可欠な要素となる。たとえば、ユーザーの行動や人間の行動、環境内の物体、音声表現、シーン全体の感情的雰囲気を認識できるシステムは、その環境内におけるエージェントの反応を適切に導く情報として活用できる。エージェントベースのマルチモーダル知能に関する研究を加速するため、本研究では「エージェントAI」という概念を定義する。エージェントAIとは、視覚的刺激、言語入力、および他の環境依存型データを認識し、意味ある具現化された行動を生成できるインタラクティブシステムのクラスを指す。特に、外部知識やマルチセンサリ入力、人間のフィードバックを統合することで、次に起こる具現化された行動を予測・改善することを目指すシステムに着目する。我々は、環境に根ざした状況下でエージェント型AIシステムを開発することで、大規模なファウンデーションモデルが抱える幻覚(hallucination)や環境に不適切な出力を生成する傾向を緩和できると主張する。エージェントAIという新興分野は、マルチモーダル相互作用におけるより広範な具現化とエージェンシーの側面を統合している。物理世界でのエージェントの行動・相互作用にとどまらず、将来は誰もが簡単に仮想現実やシミュレートされたシーンを構築し、その仮想環境内に具現化されたエージェントと対話できるようになることを目指している。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています