
要約
三次元畳み込みニューラルネットワーク(3DCNN)は、ビデオ認識や三次元点群認識などの多くのタスクに応用されています。しかし、畳み込みカーネルの次元数が高いため、3DCNNの空間複雑さは一般的に伝統的な二次元畳み込みニューラルネットワーク(2DCNN)よりも大きいです。組み込みデバイスなどの制約のある環境での展開を目的として、3DCNNを小型化するためにはニューラルネットワークの圧縮が有望なアプローチとなります。本研究では、単純で直接的な現地学習圧縮手法であるテンソル列(Tensor Train: TT)分解を採用し、3DCNNモデルの縮小を行いました。TT形式での三次元畳み込みカーネルのテンソライズ化を提案することで、より高い圧縮率を達成するために適切なTTランクを選択する方法について調査しました。また、3D畳み込みカーネルの冗長性とその圧縮への影響、コアの重要性、今後の方向性について議論し、理論的な計算複雑さと実際の実行時間との関係についても考察しました。VIVAチャレンジ、UCF11およびUCF101データセットに基づく複数の対照実験から、TT分解は有意な精度低下なしに3DCNNを約100倍圧縮できることを結論付けました。これにより、広範な実世界シナリオでの応用が可能になります。