中文題目:加權k最近鄰圖拉普拉斯矩陣分解的不平衡樣例選擇
論文題目:Imbalanced Instance Selection Based on Laplacian Matrix Decomposition with Weighted k Nearest Neighbor Graph
錄用期刊/會議:Neural Computing and Applications (中科院SCI 3區,JCR Q2)
原文DOI:https://doi.org/10.1007/s00521-024-09676-0
原文鏈接:https://link.springer.com/article/10.1007/s00521-024-09676-0
錄用/見刊時間:2024.04.22
作者列表:
1)代 琪 中國石油大學(北京)信息科學與工程學院/人工智能學院 控制科學與工程 博20
2)劉建偉 中國石油大學(北京)信息科學與工程學院/人工智能學院 自動化系 教師
3)王龍輝 華北理工大學 理學院
摘要:
數據是構建機器學習模型的基本組成部分。線性可分的高質量數據有利于構建高效的分類模型。但是,在現實世界中,采集的數據并不是高質量的,他們的每個類的樣本數量并非絕對一致。因此,在這些數據集上構建的模型容易受到類不平衡、類重疊和噪聲等問題的影響。傳統的樣本選擇算法主要是根據樣本之間的近似程度,判斷樣本是否存在冗余或重疊。因此,這些方法只關注了數據集的局部信息,忽略了樣本在數據集中的全局近似關系。在本文中,提出一種根據樣本在數據集中的全局關系的樣本選擇方法,稱為加權近鄰圖拉普拉斯矩陣分解的樣本選擇方法(LMD-WNG)。首先,該方法嘗試使用加權k最近鄰圖構建一個新的距離加權拉普拉斯矩陣。然后,使用矩陣分解方法分解距離加權拉普拉斯矩陣。最后,根據分解后的實矩陣的特征值選擇適合模型學習的訓練數據集,并在新的訓練數據集上構建分類器。
背景與動機:
目前已經提出了大量的處理類不平衡問題的預處理技術。部分研究者認為,過采樣技術比欠采樣技術更有效。然而,我們認為這樣的描述并不全面,并不是在所有數據集上,過采樣技術都是最優的方法。不妨簡單的思考一下,當少數類樣本過于稀疏且與多數類樣本存在重疊時,直接使用傳統的過采樣技術,生成的人工樣本仍然與多數類重疊,不利于傳統分類器學習數據集的分類邊界。除此之外,在實驗室中使用過采樣可能會提高評價指標的結果。在實際應用領域中,生成的偽少數類樣本很可能不能代表實際的樣本,導致分類模型無法識別新的未知樣本。因此,我們認為對于重采樣技術中的過采樣技術和欠采樣技術,他們之間并非占有絕對的優勢,而是應該針對不同的問題共同發展。
拉普拉斯矩陣是圖論中的常用方法。我們嘗試將拉普拉斯矩陣的思想引入樣本選擇或欠采樣技術中,解決類不平衡問題。使用度量學習方法,構建相似矩陣,利用正負慣性趨勢搜索數據集的全局相似度趨勢,從而實現數據集的欠采樣。我們認為在數據集中越相似的不同類的樣本越容易成為數據集中的重疊樣本。
此外,k最近鄰圖的邊并沒有權重,當生成拉普拉斯矩陣時,我們直接將鄰接矩陣中對應位置標注為1。使用這樣的做法有一個潛在的假設,即認為與頂點連接的樣本的權重是相同的,這樣并不利于分辨近鄰圖中相鄰樣本點的距離遠近。因此,我們使用距離度量的方式,計算出相鄰樣本之間的距離,將其作為k最近鄰圖中對應邊的權重,并使用加權k最近鄰圖生成拉普拉斯矩陣。
設計與實現:
提出的加權k最近鄰圖拉普拉斯矩陣分解的樣例選擇(LMD-WNG)流程圖如下所示。
主要內容:
LMD-WNG是一種結合拉普拉斯矩陣和矩陣分解技術的樣本選擇方法,據我們所知,該方法是首次在類不平衡問題上結合拉普拉斯矩陣和矩陣分解技術的新方法。該方法分為四個階段:構建k最近鄰圖、計算標準加權拉普拉斯矩陣、矩陣分解(Schur分解)和樣本選擇。
在第一階段中,我們使用k最近鄰方法搜索樣本空間并形成最近鄰圖。
第二階段則是根據k最近鄰圖計算鄰接矩陣和度矩陣,并計算k最近鄰圖的標準加權拉普拉斯矩陣。
Schur分解則是在第三階段進行,這個階段主要是分解標準加權拉普拉斯矩陣,獲取標準加權拉普拉斯矩陣對應的特征值。
第四階段,樣本選擇則是根據拉普拉斯矩陣中對應位置的特征值的大小選擇多數類中的樣本。最后,將選擇的多數類樣本與訓練集中的少數類樣本合并,形成新的訓練集。
實驗結果及分析:
在30個不平衡數據集上進行參數敏感實驗,并與其他先進方法進行對比實驗,實驗結果如下所示。
(a)輕度不平衡
(b)中度不平衡
(c)高度不平衡
圖1 使用GBDT時的參數敏感性分析
(a)輕度不平衡
(b)中度不平衡
(c)高度不平衡
圖2 使用RF作為基分類器時的參數敏感性分析
(a)輕度不平衡
(b)中度不平衡
(c)高度不平衡
圖3 使用SVM作為基分類器時的參數敏感性分析
與先進樣本選擇或數據增強方法的對比實驗結果如下所示:
表1 使用AUC評估模型時的性能結果
表2 使用G-mean評估模型時的性能結果
結論:
樣本選擇算法是解決類不平衡問題的研究方法之一,需要根據數據集中的樣本信息,選擇信息量較大的樣本加入訓練集。當數據集中少數類樣本數量較多時,可以使用傳統的重采樣技術增強少數類或刪除多數類,但是當數據集中的少數類樣本較少時,需要篩選訓練集中的多數類樣本,從而提高模型的整體性能。對于高度不平衡數據集,LMD-WNG的性能更加穩定,并不會受到類不平衡問題的影響。然而,LMD-WNG樣本選擇算法的性能將會隨著數據集不平衡比的增加而變得對超參數k更加敏感。因此,需要更高效的參數選擇方法確定超參數。LMD-WNG是首次將數據轉化為圖結構并選擇樣本的算法。因此,在未來的工作中,可以將它與其他方法結合使用,并且能夠充分探索根據數據結構選擇樣本。
通訊作者簡介:
劉建偉,教師,學者。研究領域涉及在線學習(包括強化學習,賭博機算法,持續學習,長尾學習);圖像視頻顯著性目標檢測,解糾纏表示學習,光場和神經場模型,以及圖像視頻少樣本變化檢測;自然語言理解中的知識補全,圖神經網絡;不平衡數據處理;霍克斯點過程故障預測與診斷;非線性預測與控制。 是兵器裝備工程學報第三屆編輯委員會委員。歷屆中國控制會議(CCC)和中國控制與決策會議(CCDC)的程序委員會委員。擔任過80多個國際會議的TPC。