
多感情極性分類は、実世界のデータに価値ある応用例を持つ自然言語処理(NLP)の問題です。本研究では、大規模な非監督言語モデルと微調整を組み合わせることで、ラベルクラスの不均衡やドメイン固有の文脈を含む困難なデータセットでのこのタスクに対する実践的な解決策を示します。40GBのテキスト(アマゾンレビュー)(McAuleyら 2015)を用いて注意機構に基づくトランスフォーマーネットワーク(Vaswaniら 2017)を訓練し、訓練セットで微調整を行うことで、当モデルはPlutchikの感情輪(Plutchik 1979)に基づくSemEval Task 1:E-c多次元感情分類問題(Mohammadら 2018)においてF1スコア0.69を達成しました。これらの結果は最新のモデルと競争力があり、特に恐怖(Fear: 0.73)、嫌悪(Disgust: 0.77)、怒り(Anger: 0.78)などの困難な感情カテゴリでも高いF1スコアを達成しています。また、予期(Anticipation: 0.42)、驚き(Surprise: 0.37)などの稀少カテゴリでも競争力のある結果を得ています。さらに、当研究では実世界のテキスト分類タスクへの応用も示します。複数のトピックに関する実際のツイートから狭義に収集したテキストデータセットを作成し、当微調整モデルが一般目的の商用APIよりもこのデータセットにおける感情および多次元感情分類で大幅に優れていることを示しました。また、深層学習アーキテクチャ、データセット、アルゴリズムの特性について様々な追加的研究を行い、実践的な多次元感情分類を達成するための方法を探りました。全体的に見ると、非監督言語モデリングと微調整は実世界的感情分類において高品質な結果を得るための単純かつ効果的なフレームワークであることが確認されました。