
要約
最近の研究では、Transformerにおけるアテンションヘッドが均等ではないことが示されている。この現象は、マルチヘッドアテンションの訓練における不均衡さおよびモデルが特定のヘッドに依存していることと関連していると考察される。この問題に対処するために、我々は2つの具体的なアプローチに基づいた単純なマスキング手法「HeadMask」を提案する。実験の結果、複数の言語対において翻訳性能の向上が確認された。さらに、後続の実証的分析により、本研究の仮説が支持され、提案手法の有効性が裏付けられた。