
本論文では、データからテキストへの生成(Data-to-Text Generation, DTG)において新しい訓練モデルである自己記憶からの自己訓練(Self-Training from Self-Memory, STSM)を紹介します。このモデルは、学習済みモデルから直接推論された自己記憶と/または新規データを含むサブセットで自己訓練を行うことを可能にします。自己記憶の品質は、2つのモデル、データからテキストへの変換(Data-to-Text, D2T)とテキストからデータへの変換(Text-to-Data, T2D)によって、以下の2つの事前定義された条件で検証されます:(1) D2Tモデルの出力にすべてのソース値が含まれていること、(2) T2Dモデルの出力がソースデータに戻すことができる能力を持つことです。我々は、全てのソース値が含まれている場合に短いD2T出力を生成するために貪欲アルゴリズム(greedy algorithm)を利用します。その後、これらの出力が入力関係を捉えることができることを示すために、T2Dモデルを使用してテキストをデータに戻す能力を確認します。同じ設定下で全データセットを使用した訓練と比較して、30%のデータセットを使用することで競争力のある性能を持つD2Tモデルを訓練することができました。我々は提案したモデルをE2E NLGおよびDARTの2つのデータセットで実験しました。STSMは、DTGタスクにおけるサブセット記憶からの汎化能力を提供し、同時に訓練データ量を削減します。最終的には、本論文が新しい訓練データに適応し、それを自己記憶として組み込む継続学習ソリューションに貢献することを目指しています。編集されたデータセットは公開されており、次のURLからアクセスできます:https://github.com/hoangthangta/STSM。