中文題目:基于圖卷積神經網絡的節點分類方法研究綜述
論文題目:基于圖卷積神經網絡的節點分類方法研究綜述
錄用期刊/會議:計算機科學 (CCF中文B類)
原文DOI:10.11896/jsjkx.230600071
原文鏈接:http://www.Jsjkx.com
封面摘要:節點分類任務是圖分析領域的關鍵研究主題,近年來,隨著圖卷積網絡(GCN)的深入研究和廣泛應用,GCN驅動的節點分類技術和應用均實現了顯著進展。本文綜述了基于GCN的節點分類方法,從圖概念和任務定義入手,介紹常用數據集,探討譜域與空間域GCN,分析面臨的挑戰。進一步,從模型與數據兩方面對當前研究進展進行分類總結,最終展望未來研究方向。
作者列表:
1) 張麗英 中國石油大學(北京)信息科學與工程學院/人工智能學院 軟件工程系
2) 孫海航 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機技術 碩21
3) 孫玉發 石油工業出版社有限公司
4) 石兵波 中國石油勘探開發研究院
文章簡介:
本文綜述了基于圖卷積網絡(GCN)的節點分類研究,強調了其在多個研究領域中的基礎性和廣泛應用價值。文章首先界定了節點分類問題和面臨的挑戰,然后從模型和數據集兩方面探討了GCN在節點分類中的挑戰,在模型角度,包括梯度消失、過平滑、動態圖處理、異構圖適用性和大規模圖處理等問題,在數據集角度,包括數據噪聲和數據不平衡問題,本文從這些角度總結了基于GCN的節點分類領域的研究成果,并展望了未來的研究方向,旨在為后續研究提供參考。
摘要:
節點分類任務是圖分析領域的關鍵研究主題,近年來,隨著圖卷積網絡(GCN)的深入研究和廣泛應用,GCN驅動的節點分類技術和應用均實現了顯著進展。本文綜述了基于GCN的節點分類方法,從圖概念和任務定義入手,介紹常用數據集,探討譜域與空間域GCN,分析面臨的挑戰。進一步,從模型與數據兩方面對當前研究進展進行分類總結,最終展望未來研究方向。
背景與動機:
圖數據,由節點(實體)和邊(實體間關系)組成,是富含信息的數據結構,長期以來成為研究焦點。圖數據研究涵蓋節點分類、圖分類、聚類和鏈路預測等多個任務,其中節點分類特別重要,它涉及對未標記節點的識別分類,廣泛應用于社交網絡分析、垃圾郵件檢測和文獻分類等。節點特征提取還可助力聚類、鏈接預測和可視化任務。近年,受卷積神經網絡(CNN)影響,圖卷積網絡(GCN)成為圖節點分類的核心研究方法。本文綜述了基于GCN的節點分類研究,探討現有研究、面臨的問題和挑戰,展望未來研究方向。
主要內容:
GCN的優點在于可以捕捉圖的全局信息,從而很好地表示節點的特征。但GCN在節點分類任務上也面臨著一些挑戰,下面分別從模型視角和數據集視角來綜述GCN在節點分類中存在的問題。
一、模型角度:
1. 增加深度可能導致梯度消失和過度平滑,限制性能。針對GCN增加深度會導致梯度消失和過平滑問題的研究進展,見表1。這些方法可概括為設計更優深層網絡的方法和設計更優提取特征的方法。
表1 梯度消失和過平滑問題的研究
Table 1 Research on gradient disappearance and over smoothing
方法類型 |
代表工作 |
基本思想 |
設計更優深層網絡方法 |
DeepGCN[27], AdaGCN[28] |
設計更優將前一層的特征連接到下一層的方法,提升梯度有效傳遞和網絡的表達能力。 |
設計更優特征提取方法 |
Cluster-GCN[20], N-GCN[29] |
設計更優特征提取方法,如:歸一化的方式與劃分子圖等。 |
2. GCN對動態圖支持不夠。GCN的全局信息聚合和對特定圖結構的依賴限制了其在動態圖中的應用。解決該問題的研究進展可概括為兩個方面,見表2。
表2 在動態圖上的應用研究
Table 2 Application Research on Dynamic Graph
方法類型 |
代表工作 |
基本思想 |
引入時間維度 |
STGCN, EvolveGCN |
在GCN中加入時間維度,利用RNN或者LSTM等模型來處理時間信息。 |
引入注意力機制 |
DySAT, TGAT |
引入注意力機制來處理不同時間節點的信息。 |
3. 適用異構圖的GCN研究有待深入。GCN在處理包含不同類型節點和邊的異構圖方面仍待深入研究。使用GCN的優勢來解決異構圖的節點分類研究工作可概括為兩方面,見表3。
表3 在異構圖上的應用研究
Table 3 Application Research on Heterogeneous Graph
方法類型 |
代表工作 |
基本思想 |
多層次信息融合方法 |
R-GCN, HAN |
將不同類型節點間的關系進行融合。 |
跨領域知識遷移方法 |
CD-GNN, HGCC |
采用跨領域知識遷移方法來增強異構圖節點分類性能。 |
4. GCN難以擴展到現實應用中的大型圖中。GCN的內存需求限制了其在大型圖應用中的擴展。針對大型圖的節點分類問題,目前的研究工作可歸納為3類方法,見表4。
表4 在大規模網絡上的應用研究
Table 4 Application Research on Large Scale Network
方法類型 |
代表工作 |
基本思想 |
引入鄰居采樣的方法 |
GraphSAGE[8] |
對每個節點的鄰居采樣。 |
引入層采樣的方法 |
FastGCN[21], ASGCN[19] |
使用分層采樣,避免鄰域指數擴散。 |
引入子圖采樣的方法 |
Cluster-GCN[20], GraphSAINT[39] |
通過子圖采樣方法加速訓練過程。 |
二、數據集質量方面:
1. 圖數據中的噪聲和缺失問題影響GCN的性能。針對該問題,基于GCN模型開展的研究工作可概括為兩大方面,見表5。
表5 GCN針對數據集質量問題的改進
Table 5 GCN improvement for dataset quality problems
方法類型 |
代表工作 |
基本思想 |
融合圖濾波器的方法 |
SGC,SBGC, BGCN |
過濾掉高頻噪聲來平滑圖上節點的特征。 |
引入對抗學習的方法 |
AT-GCN, RGCN |
通過對抗學習使模型更具魯棒性,能處理對抗性攻擊和誤差數據。 |
2. 高度不平衡的圖數據對節點分類構成挑戰。已有研究可總結為3方面,見表6。
表6 在不平衡數據集上的應用
Table 6 Application on Unbalanced Data Set
方法類型 |
代表工作 |
基本思想 |
數據級方法 |
GraphSMOTE, GraphMixup,Imgagn, GraphENS |
使用過采樣或下采樣技術使數據類別分布更加平衡。 |
算法級方法 |
DR-GCN, GNN-INCM, Boosting-GNN |
修改模型的底層學習或決策過程以處理類不平衡問題。 |
混合方法 |
DPGNN, GNNCL |
將數據級和算法級方法結合起來。 |
結論:
節點分類問題不僅是很多研究領域的基礎問題, 而且有著廣泛的應用, 具有重要的研究價值??偟膩碚f, 本文對近年來基于 GCN 的節點分類領域的研究進行了綜述, 總結了已有方法以及未來可研究的方向, 希望能為進一步的研究提供一定的參考價值。
未來基于GCN的節點分類研究方向包括但不限于以下方面:
1. 改進深層GCN架構:開發新型卷積核、優化子圖劃分和利用外部信息以解決梯度消失和過平滑問題。
2. 動態圖多任務學習:設計GCN多任務學習框架,優化節點分類和邊預測等任務的聯合學習。
3. 異構圖跨域集成:研究跨域鏈接對節點分類的影響,提高GCN模型的跨域數據集成與分類能力。
4. 大規模圖處理:開發并行算法和有效的采樣技術,提高大型圖上GCN模型的訓練效率和GPU利用率。
5. 解決數據的噪聲問題:設計結構優化的模型,結合噪聲處理技術,提升GCN對數據集噪聲的抵抗能力。
6. 解決數據不平衡問題:采用數據級、算法級和混合級方法,從不同角度提高少數類節點的分類準確性。
這些方向旨在提高GCN在節點分類任務中的性能,解決現有模型面臨的挑戰,以及擴展GCN在更多領域的應用潛力。
作者簡介:
張麗英,講師
中國石油大學(北京)信息科學與工程學院/人工智能學院碩士生導師。主要研究方向:機器學習、時空數據挖掘。
聯系方式:lyzhang1980@cup.edu.cn