15daysago

read time: 248分钟

传播就是您所需要的：图表示学习和分类器训练的新框架

摘要

图神经网络（GNNs）由于其强大的图表示学习能力，已经成为处理非欧式空间数据的标准工具。然而，它们的网络参数训练策略直接继承了经典神经网络，忽略了图神经网络的特点，效率低下。为了缓解这个问题，我们进行了实验分析，以研究在网络训练期间在分类器参数中捕获的知识。我们得出结论，参数特征，即分类器参数矩阵的列向量，是具有高可区分性的聚类表示。经过理论分析，我们得出结论，这些特征的可区分性是从节点到参数的特征传播中获得的。此外，实验证明，与聚类中心相比，参数特征在增强节点间特征传播方面更具潜力。相应地，通过统一的特征传播机制，同时更新节点表示和分类器参数，提出了一种新的特定于GNN的训练框架。此外，针对该框架实现了两种增强方案：全传播增强（FPA）和简化全传播增强（SFPA）。特别地，FPA利用更新的分类器参数来增强每个节点的特征传播。SFPA仅增加具有与其聚类相对应的分类器参数的节点。理论上，FPA等价于优化一个新的图学习目标，这证明了所提出的框架对现有GNN的普适性。实验结果表明，该框架具有较好的性能和通用性。

总结：

1、参数特征，即分类器参数矩阵的列向量，是具有高可区分性的聚类表示。这些特征的可区分性是从节点到参数的特征传播中获得的。

2、实验证明，与聚类中心相比，参数特征在增强节点间特征传播方面更具潜力。

3、通过统一的特征传播机制，同时更新节点表示和分类器参数，提出了一种新的特定于GNN的训练框架。

4、两种增强方案：全传播增强（FPA）和简化全传播增强（SFPA）。FPA利用更新的分类器参数来增强每个节点的特征传播。SFPA仅增加具有与其聚类相对应的分类器参数的节点。

CCS 概念

计算方法→机器学习； • 网络→ 网络算法。

关键词

图神经网络、表示学习、网络训练

propatation_1

图 1：四个阶段的节点和参数特征的 T-SNE 可视化。 (a) 训练前，(b) 5 次迭代后，(c) 20 次迭代后，(d) 100 次迭代后。嵌入显示出清晰的集群，其中每个参数嵌入（大点）比同一集群中的节点嵌入（小点）距离集群边界更远。

1、介绍

遵循消息传递机制的图神经网络（GNN）在各种基于图的任务中显示出了有希望的结果，包括链接预测[30]、节点分类[10,22,25]、图分类[31]和排名 [9,13,14]。与经典神经网络（NN）（例如多层感知器（MLP）[18]）相比，GNN 的优越性在于它们以特征传播的方式共同利用图拓扑和节点属性。然而，先前的研究并未充分重视网络参数的训练方案。具体来说，参数矩阵通常仅被视为降维组件，并且它们在图神经网络（GNN）中的训练策略直接继承自神经网络（NN）。缺乏对这些可学习参数的具体理解和深入探索可能会对开发更稳健、更高效的 GNN 架构造成重大限制。

为了缓解这个问题，首先在图1中可视化了几个阶段收集的节点特征和参数特征，其中参数特征是分类器参数矩阵的列向量。结果表明，与节点嵌入相比，参数嵌入（即参数特征的低维表示）与簇边界有显着的分离。基于这种现象，提出了一个猜想：参数特征比簇质心（一类节点特征的平均值）更具可区分性。随后，对聚类表示对的可区分性进行了测量并在图 2 中进行了可视化，结果证实了上述猜想。此外，经过理论分析，得出的结论是，参数特征的可区分性是由类感知矩阵上的特征传播赋予的，该矩阵由节点标签和上述两类特征组成。

受 HP-GMN [26] 的启发，利用簇质心来增强节点之间的传播，实验验证了该方案下参数特征相对于这些质心的优越性，如图 3 所示。因此，GNN 的完整传播训练框架通过统一的特征传播方案同时更新节点和参数特征来呈现。此外，还介绍了所提出的框架的两种实现，称为完整传播增强（FPA）和简化完全传播增强（SFPA），如图4所示。FPA使用更新的分类器参数增强每个节点的特征传播，确保无缝连接整个图表。相比之下，SFPA 仅使用与其簇相对应的分类器参数来增强节点，从而促进有效的传播模式。

理论上，通过证明 FPA 的等价性以及由图学习对象 [15,24,28,33] 和交叉熵损失组成的图学习目标的优化，证明了所提出的框架对现有 GNN 的普适性。最后，对九个同质和异质基准的大量实验，包括性能评估、标签效率、过度平滑分析和复杂性分析，提供了该框架的有效性和普适性的证据。

本文的主要贡献总结如下：

• 我们通过实验研究了分类器参数中捕获的知识，并从特征传播的角度对其可辨别性提供了解释。

• 我们提出了一种用于训练 GNN 的新颖框架和两种用于实现它的增强方案，其中节点和参数特征以传播方式更新。

• 我们提供了一个新颖的优化目标来扩展所提出的框架，并证明所提出的框架对现有GNN 的通用性。

• 我们通过实验验证了所提出的框架在同性和异性基准上的有效性和普遍性。

2、相关工作

图卷积网络（GCN）[10] 开创了用于各种基于图的任务的消息传递机制。在 GCN 的基础上，引入了几种变体，包括简化图卷积（SGC）[25]和图注意网络（GAT）[22]，它们采用高效的卷积运算和注意机制来选择性地聚合相邻信息。为了解决过度平滑的问题，APPNP [11] 结合了图传播和神经网络，使用个性化 PageRank 捕获远程依赖关系。类似地，GCNII [4]方法利用恒等映射来提高信息传播效率。为了处理异质性问题，已经开发了几种技术，例如 FAGCN[1]（它结合了低通滤波器）、Geom-GCN[16] 和 HP-GMN[26]（通过考虑潜在空间上的邻域来补充信息）以及内存块中的功能。此外，GPR-GNN [5] 通过可学习的聚合权重强调积极或消极的信息，而 H2GCN [32] 强调不同顺序的分离。最近，[3]成功地将AUC优化框架扩展到处理图上的分类任务。

3、预备知识

本节介绍本文中使用的简洁符号，然后是图神经网络的预备知识。

3.1 符号

现有一个无向图表示边集，表示点集，N表示节点数量。图由邻接矩阵

表示，D表示度矩阵，,L表示对称的半正定拉普拉斯矩阵，L=D-A。一般来说，一种常见的标准化,因此，,其中是单位矩阵。

表示节点属性矩阵，F是属性的维度，代表标签矩阵。C是类别数，是标记节点的数量。

3.2 信息传递GNN

当前大多数图神经网络（GNN）都遵循传播转换策略。消息传递范式 [6, 21] 支持的传播算子通过聚合邻居节点的特征来迭代更新每个节点的特征。变换算子将输入特征编码到低维空间，通常是可学习的网络，例如 MLP [18]。对于第 𝑖 节点，其第 𝑘 层特征的更新方案可以表示为

$\begin{aligned}Propagation\quad&\mathbf{H}_{i:}^{k+1}=\mathbf{P}_{i,i}^k\mathbf{Z}_{i:}^k+\sum_{j\in N_i}\mathbf{P}_{i,j}^k\mathbf{Z}_{j:}^k\quad&(1)\\Transformation\quad&\mathbf{Z}_{i:}^{k+1}=\sigma(\mathbf{H}_{i:}^{k+1}\mathbf{W}^k)\quad&(2)\end{aligned}$

其中，H和Z代表了节点特征和实际的输出，标量表示聚合权重，𝜎 表示非线性激活函数，W 表示网络参数，表示邻居集。第一项和第二项代表节点和邻居的消息。

各种 GNN 模型之间的主要区别在于它采用不同的传播变换方案。例如，GCN [10]在每一层应用传播和变换，而SGC仅在最后一层执行变换。此外，APPNP [11] 在每一层使用 Skip Connection [8] 组合初始特征、转换层的输出。

$\begin{aligned}GCN&&\mathbf{H}^{k+1}&=\tilde{\mathbf{A}}\mathbf{H}^k\mathbf{W}^k\\SGC&&\mathbf{H}^{k+1}&=\tilde{\mathbf{A}}\mathbf{H}^k\\APPNP&&\mathbf{H}^{k+1}&=(1-\alpha)\tilde{\mathbf{A}}\mathbf{H}^k+\alpha\mathbf{H}^0\end{aligned}$

𝛼 表示平衡超参数。

目标。GNN 网络的一组特定参数是通过优化目标来计算的，这可以最大限度地减少训练集中每个节点的实际输出向量和期望输出向量之间的误差。实际上，在 GNN [10, 11, 22, 25] 中，实际向量 Z 是节点特征矩阵和参数矩阵的乘积，即 Z = HW。因此，总的损失由交叉熵损失表示为：

$E=\sum_i\mathrm{Y}_{i,:}ln\left(softmax\left(\mathrm{Z}_{i,:}\right)\right)$

其中𝑙𝑛是自然对数，𝑠𝑜𝑓𝑡𝑚𝑎𝑥是激活函数，通常用于多类分类，Z是输出单元的实际状态，Y是其期望状态。为了通过梯度下降优化目标，需要计算 E 对网络参数的偏导数。

3.3 图学习目标

一些工作已经证明了现有 GNN 和优化目标之间的等效性 [15,24,28,33]。最常用的目标之一可以表述为

$\underset{\mathrm{H}}{\operatorname*{\arg\min}}\|\mathcal{H}-\mathcal{H}^0\|_F^2+\lambda tr(\mathrm{~H}^T\tilde{L}H)\quad\quad$

其中𝑡𝑟表示矩阵迹，H^0^表示初始特征，𝜆是上述两项之间的平衡系数。通过最小化第一项，保证更新后的特征 H 与 H^0^ 相似。第二项与谱聚类具有相同的数学形式，遵循图 [23] 上的平滑假设。因此，最小化它会迫使连接的节点具有相似的特征。最终，通过梯度下降优化方程7，可以诱导出一批GNN[15,24,28,33]，包括GCN[10]、SGC[25]、GAT[22]、APPNP[11]和JKNet[ 27]

4 分析

本节首先介绍两个实验的设置和关键发现。随后，对实验结果的猜想进行了理论分析。

4.1 实验发现

首先在几个阶段收集节点和参数特征并将其可视化，以研究网络训练期间分类器参数捕获的知识。

实验设置. 准确地说，为了匹配节点特征的维度，参数特征首先被描述为D 维行向量，,表示分类器参数矩阵W的矩阵转置。接下来，在 Cora 数据集上进行 GCN [10] 网络训练时保存四种状态下的节点和参数特征，使用可视化工具t-SNE [20]，生成并可视化这两类特征的低维嵌入，其中节点的类别是节点标签，参数特征的类别是其在矩阵中的行索引. 在图 1 中，每种颜色代表一个类别，小亮点和大暗点分别代表节点和参数嵌入。

如图 1 所示，每个簇由小点和大点组成，所有小点的颜色相同。由此可以推断，参数特征可能代表一个簇。同时，图 1 显示每个大点比小点距离簇边界更远。截至目前，尚无法确定该事件发生的原因。我们推测嵌入距离簇边界越远，它们的特征拥有的辨别力就越大。这意味着参数特征比节点特征更有效地区分类别。

定义4.1 。 （簇表示的可区分性）给定一个簇表示矩阵U，其可区分性定义为

$p_U=1-\frac1{C(C-1)}\sum_{i=0}^{C-1}\sum_{j=0,j\neq i}^{C-1}sim(\mathrm{U}_{i,.},\mathrm{U}_{j,.})$

其中𝑠𝑖𝑚是余弦相似度，𝐶是类别数。

根据定义 4.1，优秀的聚类表示应该具有高辨别性，从而为节点聚类任务提供精确的指示。基于该度量，测量并可视化两种聚类表示（即节点和参数特征）的可区分性。

实验设置。为了简化将参数特征与同类节点特征进行比较的过程，采用质心（一种广泛使用的聚类表示形式[7, 26]）来代表节点特征。每个质心代表同一簇中节点特征的平均值。然后，计算所有簇对（例如质心）之间的余弦相似度并表示为 ,为了直观地比较参数特征和聚类质心 M 的可辨别性，提供了各种数据集上的热图，其中每个单元代表一个余弦相似度值。节点和参数特征是SGC模型经过100次训练迭代后的实际输出。

当比较图 2 所示的上下热图时，很明显，任何两个参数特征之间的余弦相似度不低于对应的簇质心的余弦相似度。这里，比较仅考虑不同的集群。因此，很容易推导出。总之，结果证实了参数特征比节点特征在区分不同类方面更有效的猜想。

图 2：簇质心 M 和参数特征 ̄ W 的可辨别性 𝑝 的比较。每个热图网格代表簇对的余弦相似度。参数特征比聚类质心具有更高的辨别力。

4.2 理论解释

为了进一步检验上述结论，对参数特征的更新过程进行综合分析。然后，从特征传播的角度对上述现象进行解释。

命题 4.2。 通过等式6的优化导出的更新参数特征的方案相当于从节点H到参的特征传播。

为了证明这个命题，首先引入引理4.3.

引理 4.3。给定第 𝑗 个参数特征，即索引为 𝑗 的列向量，其方程 6 的解满足：

$\bar{\mathbf{W}}_{j,:}=\bar{\mathbf{W}}_{j,:}+\epsilon\sum_{i=0}^{N_L-1}\mathbf{O}_{j,i}\operatorname{H}_{i,:}$

,表示矩阵,表示模型优化器的学习率。

证明。首先，E 对参数特征的偏导数计算如下：

$\frac{\partial E}{\partial\bar{\mathbf{W}}}=-2(\mathrm{Y}-softmax(\mathrm{H}\bar{\mathbf{W}}^T))^T\mathrm{H}$

最后，通过逐行展开方程 11 并代入,并用O代替，引理4.3的证明结束。

因此，等式9的前两项分别表示参数特征本身及其邻居特征的组合。上述算子与GNN传播算子相同，公式为等式1。至此，命题4.2的证明结束。

命题4.2表明，当单独考虑分类器时，其参数的更新过程可以被视为使用类感知权重矩阵对所有标记节点进行特征聚合。

引理 4.4。考虑到，由公式6的优化得出，如果第i个结点属于j类，那么，,则.如果，,.

证明。设 S 表示矩阵 𝑠𝑜f𝑡𝑚𝑎𝑥 (HW)，其中。由矩阵运算可以推导出，.因此，如果,那么，或者.

命题 4.5。 基于引理4.4，给定一个参数特征̄W𝑖：，命题4.2中描述的传播机制增加了与同类节点的相似度，同时降低了与异类节点的相似度。

考虑到整个传播过程在一个单热节点标签矩阵上运行，它表现为一个具有两个分量的分段函数。第一个组件涉及同一类内的特征传播，而第二个组件涉及跨不同类的特征传播，如下所示.

$\bar{\mathbf{W}}_{j,\vdots}=\begin{cases}\bar{\mathbf{W}}_{j,\vdots}-\epsilon\sum_{i=0}^{N_L-1}\text{S}_{i,j}\text{H}_{i,:},&\text{Y}_{i,j}=0\\\\\bar{\mathbf{W}}_{j,\vdots}+\epsilon\sum_{i=0}^{N_L-1}\text{(1-S}_{i,j})\text{H}_{i,:},&\text{Y}_{i,j}=1\end{cases}$

通过这种传播机制，每个参数的特征使用正权重与来自同一类节点的特征相结合。这导致同一类内的节点之间的特征相似性显着增加。相反，由于负权重的存在，它降低了参数和来自不同类的节点之间的特征相似性。

命题4.5表明，训练参数的方案进行类内平滑（以增加相似性）和类间锐化（以降低相似性），使参数特征具有高辨别性。

5 方法论

本节首先验证参数特征在增强节点之间特征传播方面的有效性。接下来，通过同时更新节点和参数特征，提出了 GNN 的训练框架。此外，该框架还实施了两种增强方案。最后从优化的角度论证了该框架的普适性。

5.1 分类器参数的增强

正如上一节所讨论的，参数特征比同类质心具有更高的辨别力。并受到 HP-GMN [26] 利用无监督 K-Means [7] 获得的簇质心来增强节点之间的特征传播的启发，提出了一个猜想，即参数特征在增强拓扑传播方面比簇质心表现更好。

两个变体模型，首先被提出来表示增强簇质心和参数特征之间的特征传播。接下来，这些网络的主干模型是 SGC，在同性 Cora 数据集和异性 Chameleon 数据集上进行训练，每个类别的节点分类性能如图 3 所示。在实验中，每个节点不仅结合了其拓扑邻居的特征，还结合了其两种非本地邻居的特征。即，分别为聚类质心 M 和分类器参数。组合权重是特征的内积。

图 3 中的一个重要观察结果,,即集群质心的增强，实现了几乎所有类别的性能改进，而，即分类器参数的增强，实现了更显着的改进，证实了猜测。

特征传播机制如公式 1 所示，具有几个固有的缺点。首先，感受野受到图拓扑的严重限制，使得 GNN 在捕获长程依赖性时容易出现过度平滑问题。其次，传播过程缺乏足够的类意识，导致 GNN 在处理非同亲图方面效率较低。然而，通过在传播过程中整合这些参数，节点可以有效地获取远程信息并增强其区分本地邻居的能力。

图 3：通过使用集群表示增强节点之间的特征传播来提高性能。绿色、蓝色和橙色条代表 SGC、带有 M 的变体和带有 ̄ W 的变体。参数特征比集群质心具有更强的增强节点间特征传播的能力。

5.2 完整的传播训练框架

基于命题 4.2 和 5.1 小节的实验结果，我们提出了一种新颖的 GNN 训练框架。该框架利用分类器参数和节点特征的相互传播，提高节点表示的质量。该框架的概述如图 4 所示。值得注意的是，节点集使用分类器参数扩展为另一种类型的节点，称为集群锚节点（CA 节点）。

每个节点的特征更新可以描述为增广图上节点本身及其邻居的组合。

$\begin{gathered} U\textit{pdating CA nodes }\bar{\mathbf{W}}_{i,:} =\bar{\mathbf{W}}_{i,:}+\sum_{j\in Q_i}\mathcal{A}_{i,j}\operatorname{H}_{j,:} \\ \text{Updating ordinary nodes Hi,:} =(\mathrm{H}_{\mathrm{GNN}})_{i,:}+\sum_{j\in\hat{Q}_i}\hat{\mathcal{A}}_{i,j}\mathrm{~}\mathrm{\bar{W}}_{j,:} \end{gathered}$

其中，W和H分别表示CA节点和普通节点的特征。和分别是第𝑖个CA节点和第𝑖个普通节点的邻居集，H~GNN~代表GNN特征，它是通过普通节点之间的传播得到的，,表示两个权重矩阵，可以通过启发式或学习来构造。

所提出的框架有几个优点。首先，它统一了两类节点的相互传播。其次，它与大多数现有的 GNN 兼容，因为 GNN 中的传播可以被视为方程 14 中的内层更新。最后，它通过考虑远程依赖关系，有助于超越之前的 GNN 表达能力限制 [17]。

图 4：完整传播训练框架概述。 (a) 使用分类器参数增强图。（b）使用类感知矩阵更新参数特征，该矩阵结合了标签和特征相似性，实现了标记节点之间的簇内平滑和簇间锐化。 (c) FPA更新所有标记节点的特征，而SFPA仅在同一集群之间执行。

5.3 实现

该框架实现了两种增强方案，称为完全传播增强（FPA）和简化FPA（SFPA）。它们分别对应于CA节点的特征（即分类器参数）和普通节点的特征的更新过程，分别如图4（b）和4（c）所示。

更新CA节点的特性。正如第 4 节和第 5.1 小节所讨论的，使用交叉熵损失进行训练可以增强分类器参数的判别能力，从而增强拓扑传播。因此，FPA 和 SFPA 都遵循该方案作为其初始步骤。对于等式13，矩阵A由下式表示。

$\mathcal{A}=\epsilon(\mathrm{Y}_L-\text{softmax}(\mathrm{H}_L\bar{\mathrm{W}}^T))^T$

其中𝜖表示组合系数，Y𝐿和H𝐿分别表示标记节点的标签和特征。最后，由于矩阵 A 的类感知，CA 节点在特征空间中执行簇内平滑和簇间锐化，如第 4 节所示。

完全传播增强 (FPA)。特别考虑到矩阵 A 的类感知能力，FPA 将其转置设置为传播矩阵 A 来更新节点特征。

$\hat{\mathcal{A}}=\mathrm{Y}_L-\text{softmax}(\mathrm{H}_L\bar{\mathrm{W}}^T)$

该模块如图 4(c) 的上半部分所示，其中每个节点使用类感知权重接收所有 CA 节点的特征，该权重区分集群内部和外部。

简化的完全传播增强（SFPA）。如图4（c）下半部分所示，简化完全传播增强（SFPA）的特征传播仅发生在集群内。公式 14 的矩阵 ^ A 表示为：

$\hat{\mathcal{A}}=\mathrm{Y}_L\odot\text{softmax}(\mathrm{H}_L\bar{\mathrm{W}}^T)$

其中 ⊙ 代表 Hadamard 乘积，即逐元素乘法。值得注意的是，使用伪标签扩展操作范围对于所提出的实现来说并不是最优的。由于它们的低精度不可避免地导致误差传播增加。

两种方案的优点如下。首先，它们都不会增加空间复杂度，因为没有引入额外的参数。其次，FPA 易于理解，推导过程简单。具体来说，它是由已被广泛探索的图正则化和分类损失的联合优化得到的。第三，与FPA相比，SFPA在不失去可区分性的情况下效率更高。 SFPA 的传播保留了 FPA 的类内部分，但具有更稀疏的传播矩阵。

5.4 统一优化视角

为了扩展所提出的框架，引入了一种新颖的优化目标，该目标共同针对分类器训练和节点表示学习。目标𝐸𝐺包括初始特征约束、拉普拉斯图正则化和分类误差。 𝐸~𝐺 ~可以表述为

$E_G=\|\mathbf{H}-\mathbf{H}^0\|_F^2+\lambda tr(\mathbf{H}^T\tilde{L}H)+\gamma\mathcal{D}(\mathbf{Y},\sigma(\mathbf{H}\bar{\mathbf{W}}^T))$

其中 D (, ) 表示距离度量，𝜎 表示非线性激活函数，𝜆 和 𝛾 是超参数。

定理 5.1。 𝐸𝐺 对于节点特征 H 的优化方案相当于使用骨干模型 APPNP 实现 FPA，其中 D 和 𝜎 与等式 6 中的设置相同。

证明。基于这些条件，方程 18 可以重新表述为结合传统的图学习对象和交叉熵损失进行分类。

$E_G=\|\mathbf{H}-\mathbf{H}^0\|_F^2+\lambda tr(\mathbf{H}^T{\mathbf{\tilde LH}})+\gamma\mathbf{Y}ln(softmax(\mathbf{H}\bar{\mathbf{W}}^T))$

𝐸𝐺 对于节点特征 H 的偏导数为

$\frac{\partial E_G}{\partial\mathrm{H}}=(\mathrm{H}-\mathrm{H}^0)+\lambda\mathrm{\tilde{L}H}+\gamma(\mathrm{Y}-softmax(\mathrm{H}\bar{\mathrm{W}}^T))\mathrm{\bar{W}}$

接下来，令，H的迭代解为

$\mathbf{H}^k=(1-\alpha)\tilde{\mathbf{A}}\mathbf{H}^{k-1}+\alpha\mathbf{H}^0+\gamma(\mathbf{Y}-\text{so}ftmax(\mathbf{H}^{k-1}\mathbf{\bar{W}}^T))\mathbf{\bar{W}}$

其中和是超参数。可以看出，方程 21 中的前两项对应于 APPNP 中的特征更新过程。此外，由公式 21 中的第三项表示的传播与 FPA 的函数相同。

由定理 5.1 所示，从优化角度验证了所提出框架的普适性。通过将公式 18 中的前两项替换为图学习的新目标（例如 GNN-LF/HF [33] 和 tsGCN [24]），可以提高整体性能。

6 实验

本节首先提供实验设置，包括数据集、基线和实现细节。然后，分析节点分类结果，然后进行超参数调整。最后，验证了防止过度平滑的能力和较低的计算成本。

6.1 实验设置

数据集。为了详尽地评估所提出的模型，采用了九个广泛使用的具有各种同质性的基准数据集。它们可以分为四种类型，其统计数据如表1所示。Cora、Pubmed和Citeseer是引文网络[29]。 Penn94、Cornell5 和 Genius 是社交网络 [12]。 Chameleon 和 Squirrel 是维基百科页面网络 [19]。 Actor是一个共现网络[16]。在本研究中，边缘同质性[32]大于0.5的数据集是同质数据集，否则是异质数据集。对于 Cora、Citeseer 和 Pubmed，每类随机抽取 20 个节点用于训练，500 个节点用于验证，1000 个节点用于测试。对于 Penn94、Cornell5 和 Genius，节点被随机分为 2.5%、2.5% 和 95%，分别用于训练、验证和测试。对于 Chameleon、Squirrel 和 Actor，采用了 Geom-GCN [16] 中提供的广泛使用的分割，其中训练、验证和测试比例分别为 60%、20% 和 20%。

表 1：九个图数据集的统计。 #Edge Hom 是 H2GCN [32] 中提出的边同质性。

Dataset	Nodes	Edges	Features	Classes	#Edge Hom
Cora	2,708	5,278	1,433	7	0.81
Citeseer	3,327	4,552	3,703	6	0.74
Pubmed	19,717	44,324	500	3	0.80
Penn94	41,554	1,362,229	5	2	0.47
Cornell5	18,660	790,777	5	2	0.48
Genius	421,961	984,979	12	2	0.62
Chameleon	2,277	36,101	2,325	5	0.23
Squirrel	5,201	217,073	2,089	5	0.22
Actor	7,600	33,544	931	5	0.22

基线。为了验证所提出模型的优越性，采用十个基线模型进行性能比较。这些方法分为两类。第一类由同质图数据的基本模型组成，包括GCN[10]、SGC[25]、APPNP[11]、GAT[22]、JKNet[27]、GCNII[4]。第二类方法具有对异质图数据的适应性，包括FAGCN[1]、GPRGNN[5]、Geom-GCN[16]和H2GCN[32]。这两个建议的实现都是基于 GPRGNN 的。

实施细节。对于每个模型的网络训练，选择Adam优化器，学习率在集合{0.005,0.01,0.05,0.1}之间，权重衰减在集合{0,0.0001,0.001,0.005,0.01}之间，隐藏层的维度为64，dropout率在集合{0,0.2,0.5}之间。其余超参数与原论文一致。对于所提出的框架的唯一超参数，即𝛾，其值在集合{0.2,0.4,0.6,0.8}之间。节点分类是该框架性能验证的首要任务，而准确性是关键的评估指标。

所有的实验运行十次，并报告平均值和标准偏差。

表 2：同质数据集的平均分类精度和标准差（粗体表示最好）。

Model	Cora	Citeseer	Pubmed	Genius
SGC	81.81±0.27	71.04±0.45	78.41±0.24	79.77±1.35
GCN	81.71±0.74	72.10±0.58	79.80±0.11	77.29±3.59
APPNP	83.21±0.23	71.78±0.38	80.14±0.22	80.89±0.43
GAT	82.88±0.44	71.03±0.88	78.61±0.38	78.61±0.38
JKNet	81.10±0.13	69.80±0.36	78.10±0.24	79.54±0.21
GCNII	84.71±0.59	72.57±0.74	79.96±0.32	80.28±1.68
FAGCN	83.18±0.70	71.67±1.01	80.08±0.18	80.92±0.98
GPRGCN	83.61±0.31	72.59±0.52	80.10±0.29	80.94±0.31
Geom-GCN	82.31±1.13	72.44±1.50	80.03±0.91	79.92±0.85
H2GCN	82.08±0.60	70.70±0.37	80.26±0.22	80.02±0.26
FPA(ours)	84.20±0.34	72.67±0.70	80.46±0.24	81.34±0.29
SFPA(ours)	84.33±0.32	72.91±0.53	80.25±0.36	81.42±0.33

表 3：异质性数据集的平均分类精度和标准差（粗体表示最好。）

Model	Cornell5	Chameleon	Squirrel	Actor
SGC	61.63±2.55	56.97±3.77	41.44±2.39	28.71±1.22
GCN	63.80±3.21	59.82±2.58	36.89±1.34	30.64±1.49
APPNP	63.41±2.59	52.57±1.82	33.29±1.72	29.94±0.70
GAT	62.45±2.17	60.26±2.50	40.72±1.55	28.62±0.68
JKNet	59.42±2.58	62.3±2.76	44.24±2.11	36.47±0.51
GCNII	57.19±4.64	63.02±1.37	41.17±2.80	36.18±0.61
FAGCN	65.39±2.33	61.12±1.95	40.88±2.02	36.81±0.26
GPRGCN	64.74±1.90	63.43±1.77	47.29±2.43	36.58±1.04
Geom-GCN	63.58±1.62	60.31±1.53	38.32±1.59	31.63±0.98
H2GCN	66.16±2.24	58.79±1.93	37.90±2.02	36.45±1.16
FPA(ours)	68.02±1.33	65.02±1.49	49.39±1.04	36.81±1.09
SFPA(ours)	68.75±0.94	66.16±1.52	50.93±1.16	36.72±0.79

表 4：配备 FPA 和 SFPA 的 GNN 的平均分类精度 (%) 和标准差比较。 𝑁𝑜𝑛𝑒表示未处理的骨干模型。粗体表示每个数据集上每个模型的最佳结果。

Model		Dataset
Backbone	Strategy	Cora	Penn94	Chameleon	Squirrel
GCN	𝑁𝑜𝑛𝑒	81.71±0.74	63.55±1.30	59.82±2.58	36.89±1.34
	FPA	81.93±0.33	68.69±1.07	62.73±1.82	40.80±1.12
	SFPA	81.89±0.69	69.38±0.89	62.43±1.78	41.31±1.44
APPNP	𝑁𝑜𝑛𝑒	83.21±0.23	63.56±3.51	52.57±1.82	33.29±1.72
	FPA	83.79±0.32	69.61±1.75	54.21±1.75	35.77±1.20
	SFPA	83.49±0.43	69.09±1.24	53.95±1.98	36.20±1.53
FAGCN	𝑁𝑜𝑛𝑒	83.18±0.70	69.03±1.32	61.12±1.95	40.88±2.02
	FPA	83.53±0.46	70.62±1.61	61.74±1.56	47.06±1.31
	SFPA	83.42±0.48	69.67±1.28	61.58±2.15	47.87±1.16

6.2 效果评估

异质数据集。如表 2 所示，所提出的模型在异性数据集上的表现优于其他模型。与之前的研究结果一致，GNN 使用特征聚合操作广泛接收结构归纳偏差。然而，它们的节点嵌入在异亲图上表现不佳，因为它们的类分布与基于同亲图的归纳偏差不一致。通过在聚合操作中考虑全局分类器参数，所提出的模型获得的节点表示可以受到任务相关的积极影响，提高节点的表达能力

同质数据集。表 3 显示，与同质数据集上的同质图数据的基本模型相比，所提出的模型表现出优越的性能。结果表明，与具有正权重的传统聚合相比，所提出的增强模型可以提供更准确的信息来吸收不同类邻居的特征。

具有不同主干网的 FPA 和 SFPA。表4主要展示了骨干模型搭载FPA和SFPA后的性能提升情况。值得注意的是，几乎所有 GNN 模型都直接通过配备所提出的全局增强策略而受益，无论是应用于具有较高还是较低边缘同质性的图。这是因为节点聚合了对特征空间进行簇内平滑和簇间锐化的CA节点的信息。

6.3 模型分析

有限的标记培训数据。进行标签效率实验来评估训练节点数量对性能的影响，其中选择SGC作为骨干模型，每类训练节点在{1,3,5,10,15}中选择。如图 5 所示，SGC 模型的准确性随着可用标签数量的减少而降低，而每个数据集的准确性方差则增加。然而，我们提出的框架利用分类器参数矩阵来充当分类器和使用标签矩阵的特征传播校正器，从而产生更稳定的结果。

过度平滑分析。该实验分析了所提出的模型缓解过度平滑问题的能力，这是[2]中提出的 GCN 和 SGC 模型中发现的一个缺点。如图 6 所示，所提出的实现模型在所有数据集和层上始终优于主干模型。此外，每个数据集所提出的模型的性能并不像某些基线那样显着下降。原因是节点的消息是通过传播参数特征来补充的，修正节点间的错误传播系数。

复杂性分析。实验分析了所提出框架的时间和空间复杂度，其结果如表5所示。所提出的增强方案FPA和SFPA的复杂度为𝑂 (𝑁~𝐿~𝐷𝐶)。与最简单的基线 SGC 的复杂度相比，即 𝑂 (|𝐸|𝐷 + 𝑁 𝐷^2^)，其中 |𝐸| 是边的数量，由于训练节点的数量较少，所提出的方案的复杂度较低。配备 FPA 和 SFPA 会稍微增加运行时间的总时间，因为使用了一些矩阵运算来计算传播权重。

表 5：Cora 上的模型训练时间和网络参数数量，其中 time 为 500 个 epoch 的总时间。

7 结论

本研究探讨了图神经网络（GNN）中网络参数的训练方案，这是一个在之前的研究中一直被低估的领域。通过可视化节点和参数特征，该研究观察了参数嵌入与节点嵌入相比的可区分性。受这一发现的启发，提出了一个完整的 GNN 传播训练框架，通过统一的特征传播方案更新节点和参数特征。该框架的普适性在理论上得到了证明，展示了其提高 GNN 架构的效率和鲁棒性的潜力。以下研究是研究无监督场景下GNN网络参数的训练方案。

8 致谢

这项工作得到了国家杰出青年基金（No. 62025602）和国家自然科学基金（No. 61972442、62102413、62276187、62272020、U1936210、U1936208、U22B2036、 11931915），部分由中国河北省自然科学基金项目 F2020202040 资助，部分由中国霍英东教育基金会（编号 171105）资助，部分由腾讯基金会和 XPLORER PRIZE 资助，部分由中央高校基本科研业务费专项资金。

参考文献

[1] Deyu Bo, Xiao Wang, Chuan Shi, and Huawei Shen. 2021. Beyond Lowfrequency Information in Graph Convolutional Networks. (2021), 3950–3957.
[2] Chen Cai and Yusu Wang. 2020. A Note on Over-Smoothing for Graph Neural Networks. CoRR abs/2006.13318 (2020). arXiv:2006.13318
[3] Junyu Chen, Qianqian Xu, Zhiyong Yang, Xiaochun Cao, and Qingming Huang. 2022. A Unified Framework against Topology and Class Imbalance. In ACM International Conference on Multimedia. 180–188.
[4] Ming Chen, Zhewei Wei, Zengfeng Huang, Bolin Ding, and Yaliang Li. 2020. Simple and Deep Graph Convolutional Networks. In ICML, Vol. 119. PMLR, 17251735.
[5] Eli Chien, Jianhao Peng, Pan Li, and Olgica Milenkovic. 2021. Adaptive Universal Generalized PageRank Graph Neural Network. In ICLR.
[6] Justin Gilmer, Samuel S. Schoenholz, Patrick F. Riley, Oriol Vinyals, and George E. Dahl. 2017. Neural Message Passing for Quantum Chemistry. In ICML, Doina Precup and Yee Whye Teh (Eds.), Vol. 70. PMLR, 1263–1272.
[7] Greg Hamerly and Charles Elkan. 2003. Learning the k in k-means. In NIPS, Sebastian Thrun, Lawrence K. Saul, and Bernhard Schölkopf (Eds.). MIT Press, 281–288.
[8] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep Residual Learning for Image Recognition. In CVPR. IEEE Computer Society, 770–778. https://doi.org/10.1109/CVPR.2016.90
[9] Yixuan He, Quan Gan, David Wipf, Gesine D. Reinert, Junchi Yan, and Mihai Cucuringu. 2022. GNNRank: Learning Global Rankings from Pairwise Comparisons via Directed Graph Neural Networks. In ICML. 8581–8612.
[10] Thomas N. Kipf and Max Welling. 2017. Semi-Supervised Classification with Graph Convolutional Networks. In ICLR. OpenReview.net.
[11] Johannes Klicpera, Aleksandar Bojchevski, and Stephan Günnemann. 2019. Predict then Propagate: Graph Neural Networks meet Personalized PageRank. In ICLR. OpenReview.net.
[12] Derek Lim, Felix Hohne, Xiuyu Li, Sijia Linda Huang, Vaishnavi Gupta, Omkar Bhalerao, and Ser-Nam Lim. 2021. Large Scale Learning on Non-Homophilous Graphs: New Benchmarks and Strong Simple Methods. In NeurIPS, Marc’Aurelio Ranzato, Alina Beygelzimer, Yann N. Dauphin, Percy Liang, and Jennifer Wortman Vaughan (Eds.). 20887–20902.
[13] Ke Ma, Qianqian Xu, Jinshan Zeng, Xiaochun Cao, and Qingming Huang. 2022. Poisoning Attack Against Estimating From Pairwise Comparisons. IEEE Transactions on Pattern Analysis and Machine Intelligence 44, 10 (2022), 6393–6408.
[14] Ke Ma, Qianqian Xu, Jinshan Zeng, Guorong Li, Xiaochun Cao, and Qingming Huang. 2023. A Tale of HodgeRank and Spectral Method: Target Attack Against Rank Aggregation is the Fixed Point of Adversarial Game. IEEE Transactions on Pattern Analysis and Machine Intelligence 45, 4 (2023), 4090–4108.
[15] Yao Ma, Xiaorui Liu, Tong Zhao, Yozen Liu, Jiliang Tang, and Neil Shah. 2021. A Unified View on Graph Neural Networks as Graph Signal Denoising. , 12021211 pages. https://doi.org/10.1145/3459637.3482225
[16] Hongbin Pei, Bingzhe Wei, Kevin Chen-Chuan Chang, Yu Lei, and Bo Yang. 2020. Geom-GCN: Geometric Graph Convolutional Networks. In ICLR. OpenReview.net.
[17] Trang Pham, Truyen Tran, Khanh Hoa Dam, and Svetha Venkatesh. 2017. Graph Classification via Deep Learning with Virtual Nodes. CoRR abs/1708.04357 (2017). arXiv:1708.04357
[18] Hassan Ramchoun, Mohammed Amine Janati Idrissi, Youssef Ghanou, and Mohamed Ettaouil. 2017. Multilayer Perceptron: Architecture Optimization and training with mixed activation functions. In BDCA, Mohamed Lazaar, Youness Tabii, Mohamed Chrayah, and Mohammed Al Achhab (Eds.). ACM, 71:1–71:6. https://doi.org/10.1145/3090354.3090427
[19] Benedek Rozemberczki, Carl Allen, and Rik Sarkar. 2021. Multi-scale attributed node embedding. Journal of Complex Networks 9, 2 (2021), cnab014.
[20] Laurens Van der Maaten and Geoffrey Hinton. 2008. Visualizing data using tSNE. Journal of machine learning research 9, 11 (2008).
[21] Petar Velickovic. 2022. Message passing all the way up. CoRR abs/2202.11097 (2022). arXiv:2202.11097
[22] Petar Velickovic, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Liò, and Yoshua Bengio. 2018. Graph Attention Networks. In ICLR. OpenReview.net.
[23] Ulrike Von Luxburg. 2007. A tutorial on spectral clustering. Statistics and computing 17, 4 (2007), 395–416.
[24] Shiping Wang, Zhihao Wu, Yuhong Chen, and Yong Chen. 2023. Beyond Graph Convolutional Network: An Interpretable Regularizer-Centered Optimization Framework. (2023), 4693–4701.
[25] Felix Wu, Amauri H. Souza Jr., Tianyi Zhang, Christopher Fifty, Tao Yu, and Kilian Q. Weinberger. 2019. Simplifying Graph Convolutional Networks. In ICML, Kamalika Chaudhuri and Ruslan Salakhutdinov (Eds.), Vol. 97. PMLR, 68616871.
[26] Junjie Xu, Enyan Dai, Xiang Zhang, and Suhang Wang. 2022. HP-GMN: Graph Memory Networks for Heterophilous Graphs. In ICDM, Xingquan Zhu, Sanjay Ranka, My T. Thai, Takashi Washio, and Xindong Wu (Eds.). IEEE, 1263–1268. https://doi.org/10.1109/ICDM54844.2022.00165
[27] Keyulu Xu, Chengtao Li, Yonglong Tian, Tomohiro Sonobe, Ken-ichi Kawarabayashi, and Stefanie Jegelka. 2018. Representation Learning on Graphs with Jumping Knowledge Networks. In ICML, Jennifer G. Dy and Andreas Krause (Eds.), Vol. 80. PMLR, 5449–5458.
[28] Liang Yang, Chuan Wang, Junhua Gu, Xiaochun Cao, and Bingxin Niu. 2021. Why Do Attributes Propagate in Graph Convolutional Neural Networks?. In AAAI. AAAI Press, 4590–4598.
[29] Zhilin Yang, William Cohen, and Ruslan Salakhudinov. 2016. Revisiting semisupervised learning with graph embeddings. In International conference on machine learning. PMLR, 40–48.
[30] Muhan Zhang and Yixin Chen. 2018. Link Prediction Based on Graph Neural Networks. In NeurIPS, Samy Bengio, Hanna M. Wallach, Hugo Larochelle, Kristen Grauman, Nicolò Cesa-Bianchi, and Roman Garnett (Eds.). 5171–5181.
[31] Muhan Zhang, Zhicheng Cui, Marion Neumann, and Yixin Chen. 2018. An Endto-End Deep Learning Architecture for Graph Classification. In AAAI, Sheila A. McIlraith and Kilian Q. Weinberger (Eds.). AAAI Press, 4438–4445.
[32] Jiong Zhu, Yujun Yan, Lingxiao Zhao, Mark Heimann, Leman Akoglu, and Danai Koutra. 2020. Beyond Homophily in Graph Neural Networks: Current Limitations and Effective Designs. In NeurIPS, Hugo Larochelle, Marc’Aurelio Ranzato, Raia Hadsell, Maria-Florina Balcan, and Hsuan-Tien Lin (Eds.).
[33] Meiqi Zhu, Xiao Wang, Chuan Shi, Houye Ji, and Peng Cui. 2021. Interpreting and Unifying Graph Neural Networks with An Optimization Framework. In WWW, Jure Leskovec, Marko Grobelnik, Marc Najork, Jie Tang, and Leila Zia (Eds.). ACM / IW3C2, 1215–1226. https://doi.org/10.1145/3442381.3449953

「喜欢，就赞一个呗！(:3 」∠)_ (￣y▽￣)~*」

「鼓励我写出更好的文字」

「支付宝」

赏

本文链接: http://example.com/2023/11/22/propagation-is-all-your-need/
版权声明:本博客所有文章除特别声明外，均采用CC BY-NC-SA 3.0 CN许可协议进行许可。转载请注明出处！

图神经网络