16日前

摂動し、予測し、言い換える:ノイズのあるStudentを用いた画像キャプション生成のための半教師付き学習

{Maneesh Singh, Deepak Mittal, Preethi Jyothi, Pranay Reddy Samala, Arjit Jain}
摂動し、予測し、言い換える:ノイズのあるStudentを用いた画像キャプション生成のための半教師付き学習
要約

近年の半教師あり学習(SSL)手法は、主に多クラス分類タスクに焦点を当てている。分類タスクでは、増強(augmentation)の過程でクラスラベルを容易に混合できるが、画像キャプションなどのタスクで見られるような単語列といった構造化出力への拡張は自明ではない。ノイズありスタディントレーニング(Noisy Student Training)は、画像分類に向けた最近のSSL枠組みであり、自己学習(self-training)および教師-生徒学習(teacher-student learning)の拡張として提案されたものである。本研究では、画像キャプションというタスクに対して、ノイズありスタディンのSSLフレームワークを詳細に分析し、最先端の成果を達成した。元のアルゴリズムは、入力画像を変形(perturbation)し、各変形された画像に対して特徴量を計算するといった計算コストの高い増強ステップに依存している。本研究では、生徒モデルの入力画像に対して、単純なモデルおよび特徴量の摂動を用いることで、生の画像増強が存在しない状況下でもSSL学習に有益であることを示した。さらに、仮ラベルの品質を向上させ、性能を著しく改善するために、パラフレーズ生成器(paraphrase generator)をラベル増強に効果的に活用する方法を提示した。限られたラベル付きデータ設定(MS-COCOのラベル付きデータの1%)における最終的な評価結果は、従来の最先端手法をBLEU4で2.5ポイント、CIDErで11.5ポイント上回った。

摂動し、予測し、言い換える:ノイズのあるStudentを用いた画像キャプション生成のための半教師付き学習 | 最新論文 | HyperAI超神経