2ヶ月前
グラフ畳み込みがトランスフォーマーの自己注意を豊かにする!
Choi, Jeongwhan ; Wi, Hyowon ; Kim, Jayoung ; Shin, Yehjin ; Lee, Kookjin ; Trask, Nathaniel ; Park, Noseong

要約
トランスフォーマーは、自己注意機構で知られており、自然言語処理、コンピュータビジョン、時系列モデリングなど、さまざまなタスクにおいて最先端の性能を達成しています。しかし、深層トランスフォーマーモデルにおける課題の一つは、オーバースムージング問題です。この問題では、層間での表現が区別不能な値に収束し、性能が大幅に低下します。私たちは元の自己注意機構を単純なグラフフィルターとして解釈し、グラフ信号処理(GSP)の観点から再設計を行いました。私たちは一般化されかつ効果的なグラフフィルターに基づく自己注意機構(GFSA)を提案します。ただし、GFSAの複雑さは元の自己注意機構よりもやや大きいです。私たちはGFSAがコンピュータビジョン、自然言語処理、グラフレベルのタスク、音声認識、コード分類などのさまざまな分野でトランスフォーマーの性能を向上させることを示しています。