9日前

連続手話認識のための自己相互蒸留学習

{Xilin Chen, Yuecong Min, Aiming Hao}
連続手話認識のための自己相互蒸留学習
要約

近年、ディープラーニングの進展により、動画ベースの連続手話認識(CSLR)は著しい進歩を遂げている。現在、典型的なCSLRのネットワーク構成は、空間的および短時間的な情報を重視する視覚モジュールと、長時間的な情報を重視する文脈モジュールを含んでおり、ネットワークの学習にはConnectionist Temporal Classification(CTC)損失関数が用いられている。しかし、逆伝播における連鎖則の制約により、視覚モジュールは最適な視覚特徴を獲得するための調整が困難である。その結果、文脈モジュールは文脈情報の最適化にのみ注力せざるを得ず、効率的な視覚情報と文脈情報のバランスを取るという課題に直面する。本論文では、視覚モジュールと文脈モジュールがそれぞれ短時間的および長時間的情報に焦点を当てつつ、両モジュールの識別力を同時に向上させるための自己相互知識蒸留(Self-Mutual Knowledge Distillation, SMKD)手法を提案する。具体的には、視覚モジュールと文脈モジュールが対応する分類器の重みを共有し、同時にCTC損失関数を用いて学習を行う。さらに、CTC損失関数では広く知られるスパイク現象が発生する。この現象は、語彙(gloss)における重要なフレームを抽出する助けとなる一方で、他のフレームを無視し、視覚モジュールにおける特徴の飽和を早期に引き起こすという問題を引き起こす。そこで、スパイク現象の緩和および視覚モジュール内の特徴飽和の低減を目的として、語彙分割(gloss segmentation)手法を導入した。本研究では、PHOENIX14およびPHOENIX14-Tの2つのCSLRベンチマークデータセットを用いて実験を行い、SMKDの有効性を実証した。