
要約
リテラル(rationale)とは、機械学習モデルの予測を最もよく説明または支持する入力特徴の部分集合として定義される。リテラルの識別は、視覚および言語データにおけるニューラルネットワークの汎化性能と解釈可能性を向上させることに寄与している。分子やポリマーの物性予測といったグラフ応用においては、グラフリテラルと呼ばれる代表的な部分グラフ構造を特定することが、グラフニューラルネットワークの性能において重要な役割を果たす。従来のグラフプーリングおよび/または分布干渉手法は、最適なグラフリテラルを識別するための学習例が不足しているという課題に直面している。本研究では、仮想データ例を自動的に生成することでリテラル識別を向上させる新たな拡張操作「環境置換(environment replacement)」を導入する。本研究では、実データ例と拡張データ例の両方に対して、潜在空間内でのリテラル・環境の分離と表現学習を効率的に行うフレームワークを提案する。これにより、明示的なグラフ符号化・復号の高コストを回避できる。7つの分子データセットおよび4つのポリマー実データセットに対する実験結果から、提案手法が最近の技術と比較して有効性と効率性を示した。