当前位置：首页 > news >正文

论文解读-《Make Heterophily Graphs Better Fit GNN A Graph Rewiring Approach》 - zhang

news 2026/6/12 5:00:55

1. 论文介绍

论文标题：Make Heterophily Graphs Better Fit GNN: A Graph Rewiring Approach
论文领域：图神经网络，图重连算法
论文发表：IEEE Transactions on Knowledge and Data Engineering 2024（TKDE）
论文背景：

2. 论文摘要

图神经网络（GNN）是用于建模图数据的流行机器学习方法。许多GNN在同图上表现良好，但在异图上表现不佳。最近，一些研究人员将注意力转向通过调整消息传递机制或扩大消息传递的接受域来设计用于异质图的GNN。与现有从模型设计角度缓解异质性问题的工作不同，我们建议从正交角度研究异质性图，通过重新连接图结构来减少异质性，使传统的GNN表现更好。通过全面的实证研究和分析，我们验证了重新布线方法的潜力。为了充分挖掘其潜力，我们提出了一种名为深度异质图重连（DHGR）的方法，通过添加同亲边和修剪异亲边来重连图。通过比较节点邻居的标签/特征分布的相似性来确定重新布线的详细方式。此外，我们为DHGR设计了一个可扩展的实现，以确保高效率。DHRG可以很容易地用作任何GNN的插件模块，即图预处理步骤，包括用于同质性和异质性的GNN，以提高它们在节点分类任务上的性能。据我们所知，这是研究异质图的图重连的第一项工作。对11个公共图数据集的广泛实验证明了我们提出的方法的优越性。

3. 相关介绍

传统图神经网络主要关注满足同质性属性（即大多数连接节点属于同一类别）的同质性图。
同质性（以及异质性）水平可以通过同质性比率（HR）进行测量，该指标被正式定义为每个连接节点对之间标签一致性的一致性平均值。
本文发现节点级别的同质率比率和节点的同质性的度会影响GCN在节点分类任务上的表现。

图重连算法通常包括两个阶段，即相似性学习和基于节点对之间学习到的相似性的图重连。其中，准则（即目标函数）的设计对于相似性学习阶段起着关键作用。

本文贡献
1，提出了一种新的图重连算法，通过减少异质图的异质率来让下游的GNN表现更好
2，提出使用邻居标签分布作为引导信号，通过全面实验来识别同亲性与异亲性边
3，设计了一个新的可学习的图重连算法DHGR，同时也设计了一个高效的scalable的训练算法。
4，在11个真实世界数据集上实验，基于DHGR的GNN获得了最好的效果

4. 从现实数据中的观察

本文发现存在着两个指标，节点级别的同质率和节点级别的同质度，和GNN的表现有着强相关。其中节点级别的同质率的计算是对于某一个节点，其邻居节点中相同标签类别的节点的占比。
然而，由于训练期间部分可观察到的标签，我们无法直接计算节点级别的同质性比率。所以，本文提出基于邻居节点的可观测的标签/特征分布。

节点同质性比率和节点度的影响
本文设计了一个对比实验，利用图重连算法重新去调整数据集的同质节点度和同质节点率，度k从5到25的范围，同质率p从0到1的范围。然后基于图重连算法的图拓扑来训练原生的GCN，再进行测试集测试的平均准确率。

从实验数据发现同性图和异性图都遵循相同的规律：当节点度数固定时，GCN的准确率会随着节点同性比例的增加而提升；当同性比例固定时，GCN的准确率则会随着节点度数的增加而提高。
总体而言，GCN的准确率几乎与节点同质性比率和节点度数呈单调变化关系。这促使我们采用图重连技术作为提升节点同质性比率和节点度数的有效手段。

节点邻居标签/特征的分布的影响
本文提出使用节点对之间边的关系极性，用于衡量邻居节点标签分布的差异性。考虑到不是所有的节点都有标签，同时提出邻居节点的特征分布的来作为补充。
目前为止有三类信号可以使用，原始的节点特征，标签分布，邻居节点的特征分布。
计算每个节点对与这些信号的相似性，并计算节点对相似性与图中边极性之间的互信息。互信息的计算工作为