近年、深層ニューラルネットワークおよびデータセットの能力が著しく向上したことに伴い、人間の行動認識(Human Action Recognition, HAR)分野は、利用可能なデータセットおよび深層モデルの両面で急速に発展している。しかし、ロボティクス分野および人間-ロボットインタラクション(Human-Robot Interaction)を特に対象としたデータセットは依然として不足している。本研究では、こうした課題を解決するために、新たなマルチビュー型データセットを構築し、紹介する。本データセットであるRobot House Multi-View(RHM)データセットは、フロントビュー、バックビュー、天井(オムニ)ビュー、およびロボット搭載カメラビューの4つの視点から構成されている。各視点に14の行動クラスが含まれており、各クラスに6,701本の動画クリップが収録されており、合計で4視点分で26,804本の動画クリップが存在する。各動画クリップの長さは1~5秒の範囲である。同一番号・同一クラスの動画は、異なる視点間で時間的に同期されている。本論文の第2部では、既存の最先端モデルを用いた単一ストリームによる行動認識の可能性を検討し、情報理論的モデルと相互情報量(mutual information)の概念に基づいて、各視点がもたらす情報の有効性を評価する。さらに、異なる視点の性能をベンチマークにより比較し、各視点の情報量と認識性能との関係からその強みと弱みを明らかにする。本研究の結果から、マルチビューおよびマルチストリームによる行動認識が、行動認識の性能向上にさらなる可能性を秘めていることが示された。RHMデータセットは、以下のリンクから公開されている:{href{https://robothouse-dev.herts.ac.uk/datasets/RHM/HAR-1/}{Robot House}}。