16日前
自己進化を活用した効率的な言語モデル事前学習および下流適応への道筋:SuperGLUEにおける事例研究
Qihuang Zhong, Liang Ding, Yibing Zhan, Yu Qiao, Yonggang Wen, Li Shen, Juhua Liu, Baosheng Yu, Bo Du, Yixin Chen, Xinbo Gao, Chunyan Miao, Xiaoou Tang, Dacheng Tao

要約
本技術報告では、JDExplore d-teamがSuperGLUEリーダーボードに提出したVega v2の概要を簡潔に述べる。SuperGLUEは広く用いられている一般言語理解評価基準(GLUE)よりも高い難易度を有し、質問応答、自然言語推論、語義の曖昧さ解消、共参照解決、推論など、合計8つの困難な言語理解タスクを含んでいる。[手法] 事前学習言語モデル(PLM)のサイズを無闇に増やすのではなく、あるパラメータ予算(例:6B)のもとで、1)与えられた事前学習データから知識を最大限に抽出すること、および2)その知識を下流タスクに効果的に転移することを目的とする。目的1)を達成するため、我々はPLM向けの自己進化学習(self-evolution learning)を提案し、情報量の多いトークンを適切にマスクする予測を行い、補正された滑らかなラベル(rectified smooth labels)を用いてマスク言語モデル(MLM)の学習を監督する。目的2)を達成するため、プロンプト転移(prompt transfer)技術を活用し、基礎モデルおよび関連する下流タスクからターゲットタスクへ知識を転移することで、リソースが限られたタスクの性能を向上させる。[結果] 2022年10月の提出記録に基づくと、最適化された事前学習および微調整戦略を用いた6B規模のVega手法は、8つのタスクのうち4つで新たな最良成績を達成し、2022年10月8日にはSuperGLUEリーダーボードの首位に立ち、平均スコア91.3を記録した。