17日前

事前学習済みビジョンモデルを用いた転移学習とデータ変換によるテキストデータの分類

Charaf Eddine Benarab
事前学習済みビジョンモデルを用いた転移学習とデータ変換によるテキストデータの分類
要約

人間が経験を通じて知識を獲得するように、異なるタスクにおいて同時に達成可能な知識や技能の種類やレベルに明確な境界は設けられていない。しかしニューラルネットワークの分野では、そのような状況とは異なり、技術的進展は極めてタスクおよびドメイン特有である。視覚(Vision)と言語(Language)は、それぞれ別々のアプローチ、異なる手法、および別々のデータセットを用いて処理される。現在のテキスト分類手法の多くは、入力テキストサンプルに対して文脈的な埋め込み(contextual embeddings)を取得し、その埋め込みデータセット上で分類器を学習するというアプローチに依拠している。言語関連タスクにおける転移学習(Transfer Learning)は、入力サンプルの文脈的テキスト埋め込みを獲得する際に広く用いられている。本研究では、ImageNetで事前学習されたベンチマーク視覚モデルが習得した知識を活用し、非常に小型のアーキテクチャがテキスト分類を行う能力を学習する手法を提案する。具体的には、BERTの最後の6層から得られる文の埋め込みを、t-SNEに基づく手法により2次元平面に射影し、各画像が1つの文の埋め込みを表す新たな画像データセットを作成するためのデータ変換技術を採用した。この生成された画像データセット上で、ImageNetで事前学習された視覚モデルの初期層を切り出して構成した5つのモデルを、BERTの最後の6層による埋め込みで表現されたIMDBデータセットに対して学習させた。言語モデルと視覚モデルの両方で大規模な事前学習モデルを連結する本アプローチは、極めて異なるデータセットという課題にもかかわらず、計算リソースを追加で使用することなく、非常に有望な実験結果を達成した。特に、BERTによる埋め込みをグレースケール画像に変換した同一の画像データセットを用いて、5種類の異なるモデルが感情分析(Sentiment Analysis)を実現した。キーワード:BERT、畳み込みニューラルネットワーク(Convolutional Neural Networks)、ドメイン適応(Domain Adaptation)、画像分類、自然言語処理(Natural Language Processing)、t-SNE、テキスト分類、転移学習(Transfer Learning)