• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

论文阅读--Self-supervised Contrastive Attributed Graph Clustering

武飞扬头像
笃℃
帮助1

Self-supervised Contrastive Attributed Graph Clustering(自监督的对比属性图聚类)

1. 来源

学新通

						arxiv 2022

2. 动机

属性图聚类是从节点属性和图结构中去学习节点表示的方法,是图分析的一项基本但具有挑战性的任务。近年来,基于图对比学习(GCL)的方法在该任务上获得了显著的聚类性能。然而,现有的基于GCL的方法有以下局限:

  • 需要进行后处理的操作才能获得聚类标签;它们是与任务无关的,因此,需要经过后处理才能获得聚类标签,从而导致下游节点聚类任务的次优节点表示;
  • 不能从不精确的聚类标签中获益。它们不能从不精确的聚类标签中获益,因此其性能较差。
  • 不能解决样本外(OOS)问题。它们不能处理样本外(OOS)节点,这限制了它们在实际工程中的应用。

为了解决这些问题,论文提出了一种新的自监督对比属性图聚类(SCAGC)。SCAGC可能是第一个不需要后处理的对比属性图聚类工作。在SCAGC中,通过利用不准确的聚类标签,设计了一种自监督对比损失,旨在最大化簇内节点的相似性,同时最小化簇间节点的相似性,以进行节点表示学习。同时,构建一个聚类模块,通过对比不同聚类的表示,直接输出聚类标签。因此,对于OOS节点,SCAGC可以直接计算其聚类标签。

3. 模型框架

学新通

4. 方法介绍

4.1 总览

如图所示,所提出的SCAGC的网络体系结构由以下联合优化组件组成:共享图卷积编码器、对比聚类模块和自监督图对比表示学习模块。

  • 共享图卷积编码器:其目的是将增广的节点属性和图结构同时映射到一个新的低维空间,用于下游节点聚类任务。
  • 自监督GCRL模块:为了学习更多的具有辨别性的图节点表示,并利用嵌入在不准确的聚类标签中的有用信息,该模块旨在最大限度地提高簇内节点的相似性,即正对,同时最小化簇间节点的相似性,即负对。
  • 对比聚类模块:为了直接获得聚类标签,该模块通过对比不同聚类的表示来构建一个聚类网络。

4.2 共享图卷积编码器

图对比表示由于能够利用图增强方案生成正负节点对用于表示学习,因此引起了广泛关注。具体来说,给定一个任意的属性图 G \mathcal G G(节点属性X 和 拓扑图G ),利用两种随机图增强方案可以构造两个相关的属性图。

具体来说,属性掩蔽随机地向节点属性添加噪声,而边扰动随机地在拓扑图中添加或删除拓扑图中的边。这两种图增强方案的基本先验方法是保持属性图的内在拓扑结构和节点属性不变。在此基础上,学习到的节点表示对不显著属性和边的扰动具有鲁棒性。该论文将按照GCA 中的设置来实现图的扩充。

在获得两个增强属性图视图之后,模型利用一个共享的两层图卷积网络 P ( ∼ ) \mathcal P(∼) P()同时对节点属性视图和拓扑图进行编码。因此,我们有,
学新通
其中 Z ˉ ( v ) \bar Z ^{(v)} Zˉ(v)是共享GNN的第一层输出; Z ( v ) ∈ R N × d 1 Z (v)∈R^{N×d1} Z(v)RN×d1是第v个图增强下的节点表示;Ω = {Ω1,Ω2}表示图卷积编码器的可训练参数; G ~ ( v ) = G ( v ) I ; D ~ ( v ) ( i , i ) = ∑ G ~ i j ( v ) \tilde G ^{(v)} = G ^{(v)} I;\tilde D ^{(v)}(i,i)= \sum \tilde G_{ij} ^ {(v)} G~(v)=G(v) ID~(v)ii=G~ij(v) I I I 是一个单位矩阵;σ(·)= max(0,)表示非线性ReLU激活函数。

到目前为止,模型已经得到了两个增广属性图视图的节点表示 Z ( 1 ) Z ^{(1)} Z(1) Z ( 2 ) Z ^{(2)} Z(2)

4.3 自监督GCRL模块

在GRL领域,基于对比学习的GRL是一种有效的范式:最大化正对的相似性,同时最小化负对的相似性来学习区别图表示。

对于给定的有N个节点的属性图,通过增广得到两个图,进而含有2N个增广节点。传统的CL将两个不同增强下的节点表示视为一个正对,并将其他2N-2对视为负对(如下图)。

学新通

虽然上述的传统假设具有很好的性能,但它与聚类的标准相反。在节点聚类中,我们希望同一聚类 C k C_k Ck中的节点之间的相似性较高,而不同聚类中的节点之间的相似性较低。然而,现有的方法没有很好地考虑这一准则,即忽略了假阴性对的存在。

在本文中,通过利用伪聚类标签 L ⃗ \vec{L} L ,我们可以很容易地得到不同聚类的样本索引。如图2 (b)所示,我们的目标是最大限度地提高簇内节点的相似性,即正对,同时最小化簇间节点的相似性,即负对。为此,我们首先映射节点表示 Z ( 1 ) Z ^{(1)} Z(1) Z ( 2 ) Z ^ {(2)} Z(2)获得增强节点表示 M ( 1 ) M ^{(1)} M(1) M ( 2 ) M ^ {(2)} M(2)通过两层共享的完全连接网络(网络参数为φ),也有助于形成和保存更多的信息在 Z ( 1 ) Z ^{(1)} Z(1) Z ( 2 ) Z ^ {(2)} Z(2) M ( v ) ∈ R N × d 2 , d 2 M(v)∈R^{N×d_2},d_2 M(v)RN×d2d2是新节点表示的维度。之后,对于第i个节点,设计了新的自监督节点对比损失函数,其定义为,
学新通
其中τ2为温度参数,s (·, ·)计算两个向量的余弦相似性, m i ( v ) m ^{(v)}_i mi(v)表示节点表示 M ( v ) M ^{(v)} M(v)的第 i 行。∆i表示与第i个节点属于同一聚类的节点集,|∆(i)|是它的节点数量,可以从伪聚类分配矩阵 L ⃗ \vec{L} L 中得到。∇i 是除第 i 个节点外的所有节点的索引集。其实这个损失就是让同一类节点之间的表示相似。

然后,考虑到所有节点,自监督对比损失为,
学新通

4.4 对比聚类模块

如何获取聚类标签是完成下游聚类任务的关键。现有的方法直接在学习的节点表示上实现经典的聚类算法,如K-Means或谱聚类,得到聚类结果。但是,该策略分两个步骤:先获得节点表示,然后聚类。这样限制了聚类性能。

为此,作者建立了一个聚类网络,直接获得聚类标签。具体来说,如图1所示,我们应用聚类网络将 Z ( 1 ) Z ^{(1)} Z(1) Z ( 2 ) Z ^ {(2)} Z(2)的模式结构转换为聚类标签 L ^ ( 1 ) \hat L ^{(1)} L^(1) L ^ ( 2 ) \hat L ^ {(2)} L^(2)的概率分布。

具体地,为了在增强器之间共享参数,作者通过一个带有参数ψ的共享的两层全连接网络来获得 L ^ ( 1 ) \hat L ^{(1)} L^(1) L ^ ( 2 ) \hat L ^ {(2)} L^(2)。在此设置下,可以确保 L ^ ( 1 ) \hat L ^{(1)} L^(1) L ^ ( 2 ) \hat L ^ {(2)} L^(2)拥有相同的编码方案。因此, L ^ ( 1 ) ∈ R N × K \hat L ^{(1)} ∈R^{N×K} L^(1)RN×K集群网络的输出1增强属性图视图,和 L ^ ( 2 ) ∈ R N × K \hat L ^{(2)} ∈R^{N×K} L^(2)RN×K增强属性图视图,其中K是集群的数量, l ^ i , k ( 1 ) \mathcal {\hat l} ^{(1)}_{i,k} l^ik(1)表示节点i 分配到簇 k C k C_k Ck 的概率。

对于得到的赋值矩阵 L ^ ( 1 ) \hat L ^{(1)} L^(1) L ^ ( 2 ) \hat L ^ {(2)} L^(2),在列方向上, L ^ ( 1 ) \hat L ^{(1)} L^(1)的每列 l ^ , k ( 1 ) \mathcal {\hat l} ^{(1)}_{,k} l^k(1)是第k个聚类的表示。因此,我们应该加强同一个类的聚类表示,也应该远离不同类的聚类表示。也就是说,对于每个增广属性图视图中的第k个聚类,只有一个正对( l ^ , k ( 1 ) \mathcal {\hat l} ^{(1)}_{,k} l^k(1) l ^ , k ( 2 ) \mathcal {\hat l} ^{(2)}_{,k} l^k(2))和2个K-2负对。为此,在对比学习的巨大成功的推动下,我们利用对比损失函数来实现这个约束。因此,对于第1个增强视图 l 中的第k个簇,有
学新通
其中,τ1是控制柔软度的参数。然后,考虑到所有的正对,将对比聚类损失 L C C \mathcal L_{CC} LCC定义为,
学新通
此外,为了避免平凡无价值的结果,即确保所有节点都可以均匀地分配到所有集群中,类似于一些工作,我们在此引入一个聚类正则化器 R R R,其定义为,
学新通
学新通
SCAGC训练过程中,当我们以未增广属性图(X,G)作为SCAGC的输入时,通过离散连续输出概率 L ⃗ \vec{L} L 得到聚类分配矩阵 L ^ \hat L L^

考虑样本外的节点。对于OOS节点(Xnew,Gnew),SCAGC可以直接以(Xnew,Gnew)作为输入来计算聚类分配矩阵。而现有的基于GRL和GCRL的方法在OOS节点(Xnew,Gnew)中效率低下,这需要训练整个属性图,即{(X;Xnew)、(G;Gnew)}。

4.5 优化

学新通

5. 实验

  • 1学新通
  • 2
    学新通

6. 总结

作者提出了一种新颖的自监督对比属性聚类(SCAGC)方法,可以直接预测聚类标签和处理oos节点。并提出了一种新的基于不精确聚类标签的自监督对比损失来提高节点表示质量。SCAGC将有助于促进属性图的探索,其中标签是时间和劳动消耗的获取。

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhghfgbc
系列文章
更多 icon
同类精品
更多 icon
继续加载