<meter id="hh1nh"></meter>
<th id="hh1nh"><em id="hh1nh"><delect id="hh1nh"></delect></em></th>

        <form id="hh1nh"></form>

          <listing id="hh1nh"><nobr id="hh1nh"></nobr></listing>
          <nobr id="hh1nh"></nobr>

            <th id="hh1nh"><form id="hh1nh"><font id="hh1nh"></font></form></th>
            <rp id="hh1nh"><progress id="hh1nh"></progress></rp>
            您所在的位置:首頁 - 科學研究 - 科研動態

            科研動態

            ESA-GCN :基于ENN-SMOTE采樣和注意力機制的類不平衡節點分類方法

            中文題目:ESA-GCN :基于ENN-SMOTE采樣和注意力機制的類不平衡節點分類方法

            論文題目:ESA-GCN: An Enhanced Graph-Based Node Classification Method for Class Imbalance Using ENN-SMOTE Sampling and an Attention Mechanism

            發表期刊:Applied Sciences (JCR Q2)

            原文DOI:10.3390/app14010111

            作者列表

            1)張麗英 中國石油大學(北京)信息科學與工程學院/人工智能學院 軟件工程系教師

            2)孫海航 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機技術 碩士 21

            摘要:

            重采樣注意力圖卷積網絡(ESA-GCN)模型結合ENN-SMOTE重采樣和注意力機制,解決類不平衡圖節點分類問題。ENN-SMOTE綜合采樣方法,在減少多數類節點的同時,增加少數類節點,使得數據集更加均衡;并且ENN算法通過刪除低質量、嘈雜的樣本數據實現有效地降低分類器的錯誤率,提高分類器的性能穩定性;在為新節點與原始節點之間生成邊的階段引入注意力機制,充分考慮節點之間的相互關系,并且只對一部分關鍵信息進行高權重的集中處理,實現提高分類準確率的同時大大降低模型參數和計算量。在三個公共數據集上進行的實驗表明,ESA-GCN對于類不平衡節點分類任務中取得了顯著的成果。

            背景與動機:

            圖節點中的類別不平衡問題在現實世界的任務中普遍存在,如欺詐檢測、假用戶檢測、惡意軟件檢測等。這個問題顯著影響了對這些少數類別的分類器性能,但在這個領域的研究還相對有限。因此不平衡節點分類問題已成為一個重要的研究方向。針對圖數據過采樣時邊的生成不準確、少數類表達能力不足以及存在噪聲樣本等問題,本文提出了ESA-GCN模型。

            設計與實現:

            ESA-GCN的主要思想是在基于圖神經網絡(GNN)的特征提取器獲得的表達性嵌入空間中,采用一系列的采樣和邊生成技術來改善不平衡數據集上的節點分類性能。ESA-GCN由四個部分組成:基于GNN的特征提取器、重采樣模塊、邊生成器和基于GNN的節點分類模塊。ESA-GCN模型原理框架如圖1所示。

            ESA-GCN能夠充分利用圖神經網絡的特征提取能力和增強樣本均衡的策略,提升在不平衡數據集上的節點分類效果。ESA-GCN的創新之處在于綜合運用了欠采樣、過采樣和邊緣生成技術,來提高不平衡圖數據中的節點分類問題的解決能力。


            1 ESA-GCN架構

            實驗結果及分析:

            本研究選用了三個公共數據集進行實驗,并選擇了四個基準模型進行比較,具體實驗結果如表1所示。

            1 性能對比表


            本文進行了消融實驗,分別研究了增加ENN欠采樣、注意力機制以及同時增加ENN欠采樣和注意力機制對模型性能的影響,實驗結果如表2所示。

            2 消融實驗結果表


            本文分析了不同算法在不同欠采樣鄰居數下的性能,以評估欠采樣鄰居數對模型性能的影響,結果見圖2。

            圖片.png

            2 AUC-ROC與F1-Macro隨欠采樣鄰居變化圖


            本文對不同算法在不同不平衡率下的性能進行了分析,以評估它們的魯棒性,實驗結果如圖3至圖5所示。

            圖片.png

            圖3 Cora數據集調整不平衡率時的AUC-ROC與F1-Macro變化


            圖片.png

            圖4 Citeseer數據集調整不平衡率時的AUC-ROC與F1-Macro變化


            圖片.png

            圖5 PubMed數據集調整不平衡率時的AUC-ROC與F1-Macro變化


            本文通過實驗評估了不同算法在不同損失權重λ下的性能變化,并進行了相應的分析,具體實驗結果見圖6至圖8。

            圖片.png

            圖6 Cora數據集調整超參數時的AUC-ROC與F1-Macro變化


            圖片.png

            圖7 Citeseer數據集調整超參數時的AUC-ROC與F1-Macro變化


            圖片.png

            圖8 PubMed數據集調整超參數時的AUC-ROC與F1-Macro變化

            結論:

            本文提出了一種新的模型ESA-GCN,旨在解決不平衡節點分類問題。具體而言,該模型在圖數據中采用ENN-SMOTE采樣方法來平衡原始圖數據,并且減少了噪聲樣本對模型的影響。此外,該模型引入了注意力機制來調整每個節點的重要性,并重新生成邊,更準確的構建圖結構。為了驗證該模型的有效性,我們在三個常用的公共數據集(Cora、Citeseer、PubMed)上進行了實驗。實驗結果表明,與傳統的GCN算法相比,該模型在AUC-ROCF1-Macro指標方面都取得了顯著的改進。

            作者簡介:

            張麗英,講師,中國石油大學(北京)信息科學與工程學院/人工智能學院碩士導師。主要研究方向:機器學習、時空數據挖掘。主持并參與國家自然基金、校級基金和校外開放基金、中石油勘探開發課題10項。發表論文7余篇,其中被SCI、EI檢索4篇。教學工作主持教育部產學合作協同育人項目、校級核心課程/重點教改項目10項,出版教材兩部。

            聯系方式:lyzhang1980@cup.edu.cn

            99亚洲综合精品