顔面表情認識(Facial Expression Recognition, FER)は、畳み込みニューラルネットワーク(Convolutional Neural Networks, CNN)の活用により著しい進展を遂げてきた。しかし、CNNにおける畳み込みフィルタは空間的局所性(spatial locality)に依存しているため、多数のニューラルレイヤーにおいて、顔面の異なる領域間の長距離な誘導的バイアス(long-range inductive biases)を学習することができない。その結果、CNNベースのFERモデルの性能には依然として限界が存在する。この問題に対処するために、本研究ではCNNベースのモデル向けに、低レベル特徴学習と高レベル意味表現のそれぞれに適した2つのアテンション機構を組み込んだ新しいFERフレームワークを提案する。特に、低レベル特徴学習においては、顔面表情画像内の異なる領域間の依存関係を捉えるために、グリッド単位のアテンション機構を提案し、これにより低レベル特徴学習における畳み込みフィルタのパラメータ更新を正則化する。一方、高レベル意味表現の段階では、高レベル畳み込み層ブロックから得られるピラミッド特徴から生成された視覚的意味トークンの系列を用いて、グローバル表現を学習する視覚変換器(Visual Transformer)アテンション機構を採用する。本研究では、CK+、FER+、RAF-DBの3つの公的顔面表情データセットを用いて広範な実験を行った。実験結果から、提案するFER-VTモデルがこれらのデータセットにおいて最先端の性能を達成したことが示され、特に追加の学習データを一切使用せずにCK+データセットで100%の正確率を達成した点が顕著である。