
要約
順序データ(テキスト、音声、ゲノムデータなど)における長距離依存関係を正確に表現する能力を学習することは、ディープラーニングにおける重要な課題である。従来のフィードフォワード型畳み込みモデルは有限の受容野内での特徴相互作用しか捉えられず、一方、再帰型アーキテクチャは勾配消失問題により学習が遅く、困難であることがあった。本研究では、アダプティブバッチ正規化およびその拡張手法に着想を得た、新しいアーキテクチャ的要素である「時系列特徴別線形調制(Temporal Feature-wise Linear Modulation; TFiLM)」を提案する。TFiLMは再帰型ニューラルネットワークを用いて畳み込みモデルの活性化値を動的に変調するものであり、計算負荷を最小限に抑えつつ、畳み込み型時系列モデルの受容野を拡張する。実証的な実験において、TFiLMはテキスト分類や音声スーパーレゾリューションを含む、多様な生成的・判別的学習タスクにおいて、フィードフォワード型ニューラルネットワークの学習速度と精度を顕著に向上させることを確認した。