12日前
対照的事前学習によるテキストおよびコード埋め込み
Arvind Neelakantan, Tao Xu, Raul Puri, Alec Radford, Jesse Michael Han, Jerry Tworek, Qiming Yuan, Nikolas Tezak, Jong Wook Kim, Chris Hallacy, Johannes Heidecke, Pranav Shyam, Boris Power, Tyna Eloundou Nekoul, Girish Sastry, Gretchen Krueger, David Schnurr, Felipe Petroski Such, Kenny Hsu, Madeleine Thompson, Tabarak Khan, Toki Sherbakov, Joanne Jang, Peter Welinder, Lilian Weng

要約
テキスト埋め込み(text embeddings)は、意味検索やテキスト類似度の計算など、多くの応用分野で有用な特徴量として活用されている。従来の研究では、用途に応じてデータセットの選定、学習目的、モデルアーキテクチャが異なるようにカスタマイズされたモデルの学習が一般的であった。本研究では、大規模な非教師ありデータ上で対照学習(contrastive pre-training)を行うことで、テキストおよびコードの高品質なベクトル表現が得られることを示した。この非教師あり学習により得られたテキスト埋め込みは、線形プローブ分類(linear-probe classification)において新たなSOTA(state-of-the-art)性能を達成するとともに、印象的な意味検索能力を示し、場合によってはファインチューニング済みモデルと競合する性能を発揮することも確認された。7つのタスクにおける線形プローブ分類精度の平均値について、本研究で得られた最良の非教師ありモデルは、従来の最良の非教師ありモデルおよび教師ありモデルに対して、それぞれ4%および1.8%の相対的な性能向上を達成した。また、大規模な意味検索タスクにおいて評価した場合、MSMARCO、Natural Questions、TriviaQAの各ベンチマークにおいて、従来の最良の非教師あり手法と比較して、それぞれ23.4%、14.7%、10.6%の相対的改善を示した。同様に、テキスト埋め込みと同様に(テキスト、コード)ペアを用いてコード埋め込みモデルを学習することで、コード検索タスクにおいて従来の最良手法よりも20.8%の相対的改善を達成した。