これまで、複数の意図を同時に認識し、単一の発話内に含まれる対応するシーケンススロットタグを抽出・注釈する能力を持つ多意図音声言語理解(multi-intent Spoken Language Understanding, SLU)は、自然言語処理(Natural Language Processing, NLP)分野における研究の注目テーマとなってきている。従来の研究は、共同的な意図検出とスロット埋め込みをモデル化する際に、トークンレベルでの意図-スロット相互作用に主眼を置いてきたが、これにより統合学習過程において異方性のある意図誘導情報の完全な活用が困難であった。本研究では、多意図SLUを「多視点意図-スロット相互作用」としてモデル化する新たなアーキテクチャを提案する。このアーキテクチャは、発話レベル、チャンクレベル、トークンレベルの相互作用を有効に活用することで、統合型多意図SLUにおけるカーネル的なボトルネックを解決する。さらに、特殊な符号化処理後に相互作用情報をより良く捉えるために、統合型多意図SLUを三視点(発話・チャンク・トークン)の意図-スロット相互作用の融合としてモデル化したニューラルフレームワーク「Uni-MIS」を構築した。本モデルでは、チャンクレベルでの意図検出デコーダを用いて多意図情報を十分に捉え、適応型意図-スロットグラフネットワークにより細粒度の意図情報を抽出し、最終的なスロット埋め込みをガイドする。本研究では、多意図SLUの代表的な2つのベンチマークデータセット上で広範な実験を行い、既存の強力なベースラインすべてを上回る性能を達成し、統合型多意図SLUの最先端性能をさらに押し上げた。さらに、本研究で開発したChatGPTベンチマークにより、多意図SLU分野には依然として大きな研究的価値が潜んでいることが示された。