
要約
3次元畳み込みニューラルネットワーク(3D-CNN)を用いて学習された時空間表現は、現在、行動関連タスクの最先端アプローチで使用されています。しかし、3D-CNNは、より単純な2D-CNNアーキテクチャと比較して、メモリや計算リソースが非常に多く必要であることで知られています。本研究では、教師としての3D-CNNから学生としての2D-CNNに時空間表現を「幻視」させる手法を提案します。2D-CNNに未来を予測し、進行中の活動を直感的に捉えることを要求することで、行動とその展開に対する深い理解が促されます。「幻視」タスクは補助的なタスクとして扱われ、マルチタスク学習設定において他の任意の行動関連タスクと組み合わせて使用することができます。実験評価の結果によると、「幻視」タスクは実際に行動認識、行動品質評価、動的シーン認識などのタスクにおける性能向上に寄与することが示されました。実用的な観点からも、実際の3D-CNNを使用せずに時空間表現を「幻視」することができれば、計算能力が制限されている環境や帯域幅が低い状況などでの導入が可能になります。コードベースは以下のURLから入手できます: https://github.com/ParitoshParmar/HalluciNet.