4D 空間時間 ConvNets: Minkowski 畳み込みニューラルネットワーク

多くのロボティクスおよびVR/ARの応用において、3Dビデオは利用可能な入力源(連続的な深度画像のシーケンスまたはLIDARスキャン)となっています。しかし、これらの3Dビデオは、2次元畳み込みニューラルネットワーク(ConvNets)や3次元認識アルゴリズムを用いて、フレームごとに処理されています。本研究では、高次元の畳み込みを用いて直接3Dビデオを処理できる4次元畳み込みニューラルネットワークを提案します。これにより、空間と時間の両方での認識が可能になります。そのため、疎テンソルを採用し、すべての離散畳み込みを包括する一般化された疎畳み込みを提案します。さらに、一般化された疎畳み込みの実装のために、疎テンソル用のオープンソース自動微分ライブラリを作成しました。このライブラリは、高次元畳み込みニューラルネットワークに広範な関数を提供します。私たちはこのライブラリを使用して4次元空間時間畳み込みニューラルネットワークを作成し、さまざまな3Dセマンティックセグメンテーションベンチマークと提案された4Dデータセットでその有効性を検証しました。4次元空間における課題に対処するために、一般化された疎畳み込みの特殊ケースであるハイブリッドカーネルと、7次元空間-時間-色相空間での空間時間の一貫性を強制する三方向定常条件付き確率場(Trilateral Stationary Conditional Random Field)を提案します。実験結果から、一般化された3D疎畳み込みのみを使用した畳み込みニューラルネットワークが2Dまたは2D-3Dハイブリッド方法よりも大幅に優れていることを示しています。また、3Dビデオに対して4次元空間時間畳み込みニューラルネットワークがノイズに堅牢であり、3次元畳み込みニューラルネットワークよりも優れ、場合によってはより高速であることも示しています。