Wie aufmerksam sind Graph-Attention-Netzwerke?

Graph Attention Networks (GATs) sind eine der beliebtesten GNN-Architekturen und gelten als state-of-the-art Architektur für die Repräsentationslernen mit Graphen. In GAT legt jeder Knoten seine Aufmerksamkeit auf seine Nachbarn unter Berücksichtigung seiner eigenen Repräsentation als Abfrage fest. In dieser Arbeit zeigen wir jedoch, dass GAT eine sehr begrenzte Art von Aufmerksamkeit berechnet: Die Rangfolge der Aufmerksamkeitswerte ist unabhängig vom Abfrageknoten. Wir definieren diese eingeschränkte Art von Aufmerksamkeit formell als statische Aufmerksamkeit und unterscheiden sie von einer streng ausdrucksstärkeren dynamischen Aufmerksamkeit. Da GATs ein statisches Aufmerksamkeitsmechanismus verwenden, gibt es einfache Graphprobleme, die GAT nicht ausdrücken kann: In einem kontrollierten Problem zeigen wir, dass statische Aufmerksamkeit GAT daran hindert, selbst die Trainingsdaten zu fitten. Um diese Einschränkung zu beseitigen, führen wir eine einfache Korrektur ein, indem wir die Reihenfolge der Operationen ändern und schlagen GATv2 vor: eine dynamische Graphaufmerksamkeitsvariante, die streng ausdrucksstärker ist als GAT. Wir führen eine umfassende Evaluation durch und zeigen, dass GATv2 in 11 OGB- und anderen Benchmarks besser abschneidet als GAT, während wir ihre parametrischen Kosten angleichen. Unser Code ist unter https://github.com/tech-srl/how_attentive_are_gats verfügbar. GATv2 ist Bestandteil der PyTorch Geometric-Bibliothek, der Deep Graph Library und der TensorFlow GNN-Bibliothek.注释:- "state-of-the-art" 是一个常用的英语术语,在德语中通常保留原样。- "fitting the training data" 翻译为 "die Trainingsdaten zu fitten",这是机器学习中的常用表达。- "parametric costs" 翻译为 "parametrischen Kosten",以保持专业性。