6ヶ月前

概要

大規模言語モデル（LLMs）は、特にゼロショットの枠組みにおいて、豊富なテキスト属性を持つグラフを処理する能力が注目を集めつつある。近年の研究では、LLMsが一般的なテキスト豊富なグラフベンチマーク上で良好なテキスト分類性能を発揮することが示されており、プロンプトに構造情報を自然言語として付加することでその性能をさらに向上させられることが明らかになっている。本研究では、グラフデータに内在する構造情報の組み込みがLLMsの予測性能をどのように向上させるのかを理解することを目的とする。まず、データ漏洩の懸念を排除するために、新たな漏洩のないデータセットを構築し、従来広く用いられてきたデータセットと比較分析を行った。次に、これまでの研究ではエゴグラフを自然言語でグラフ構造を記述する形でエンコードする手法が一般的であったが、本研究では「LLMsは、プロンプト設計者の意図に従ってグラフ構造を正しく理解しているのか」という問いを提起する。さらに、構造情報を組み込むことでLLMsがなぜ性能を向上させられるのかについても検証した。これらの問いに対する探求から、以下の知見が得られた。(i) LLMsの性能向上がデータ漏洩に起因するという実質的な証拠は見当たらない。(ii) プロンプト設計者の意図とは異なり、LLMsはプロンプトをグラフ構造として理解するのではなく、むしろ文脈的な段落として処理する傾向がある。(iii) プロンプトに含まれる局所近傍情報の中で、最も効果的な要素はグラフ構造そのものではなく、ノードラベルに関連する表現であることが明らかになった。

ソースPDF