中文題目:基于超圖特征增強與自適應邏輯調整的長尾圖像識別算法
論文題目:Dual-branch Network with Hypergraph Feature Augmentation and Adaptive Logits Adjustment for Long-tailed Visual Recognition
錄用期刊/會議:Applied Soft Computing (中科院一區、TOP期刊)
錄用時間:2024.10.10
作者列表:
1) 韓佳藝 中國石油大學(北京)人工智能學院 控制科學與工程 博22級
2) 劉建偉 中國石油大學(北京)人工智能學院 自動化系 教師
3) 徐璟東 中國石油大學(北京)人工智能學院 控制科學與工程 碩22級
摘要:
本文提出了一種基于解耦學習框架的超圖特征增強和自適應邏輯調整的長尾視覺識別(HALR)算法。對于表征學習任務,我們從混合輸入樣本中提取超圖特征,以捕獲圖像的全局空間上下文語義信息。對于分類器學習任務,我們提出了一個自適應邏輯調整函數,該函數自動糾正預測分數偏差,從而產生魯棒決策邊界。
背景與動機:
長尾分布存在數據稀缺性和顯著的類不平衡問題,導致模型對頭類的預測傾向增加,對尾類的預測性能降低。傳統的長尾學習方法可以緩解尾類的信息缺失問題。然而,這些方法沒有充分利用圖像中包含的復雜非線性高階關系以及頭尾類之間的交互信息。在尾類數據稀缺的情況下,如何充分利用有限樣本中的隱含信息是一個亟待解決的問題。
針對這些問題,我們提出了一種基于超圖特征增強和自適應邏輯調整的長尾雙分支模型。超圖特征增強策略優化潛在特征表示,邏輯調整函數自動校準模型置信度偏差。我們的HALR同時改進了解耦長尾學習的表征學習和分類器學習任務。此外,我們采用余弦相似度度量學習方法來約束全局和局部混合一致性。在四個基準數據集的大量實驗證實了我們提出的模型的有效性。
主要內容:
圖1 HALR流程圖
超圖是一種通用的圖結構方法,能夠更準確地表示多個相關對象之間的關系。因此,利用超圖挖掘圖像特征中的結構信息,從全局的角度學習圖像的空間上下文語義信息。超圖卷積定義為:
我們利用超圖卷積捕捉圖像中隱含的語義信息,并將提取到的超圖增強特征為:
與原特征融合后的最終輸出特征為:
面對模型分類偏差的問題,大多數解耦學習方法依賴于數據集中預先存在的分布假設,并手動設置靜態參數進行重采樣或重加權。然而,這種人工參數設置需要廣泛的專家知識,配置不當會嚴重影響學習算法的泛化能力。為此,我們提出一種自適應邏輯調整函數,以提高模型的適應性和泛化能力。該方法動態關注每個輸入樣本,根據數據集的實際分布和樣本本身的難度自動修正兩個分支的logits輸出,表示為:
實驗結果與分析:
我們在四個廣泛使用的長尾數據集上評估了我們提出的HALR的性能:CIFAR10-LT, CIFAR100-LT, ImageNet-LT和iNaturalist2018。
圖 2 數據集示意圖
部分實驗結果如表所示,我們在各個數據集上,展現了出色的競爭力:
結論:
本文旨在解決長尾視覺識別任務中數據信息挖掘不足和模型置信度偏差的問題,提出了一種超圖特征增強和自適應邏輯調整的雙分支網絡,有效提升了模型的性能。超圖特征增強方法將視覺長尾學習從傳統的歐氏空間擴展到非歐氏空間。使用超圖特征作為輔助知識,有助于模型挖掘圖像中隱含的上下文空間語義信息。實驗表明,該方法在面對有限樣本時增強了模型對尾部類的理解。自適應logits調節函數為模型提供了動態校準置信度的能力,從而緩解頭類偏好問題,靈活地修正分類偏差。在CIFAR10/100-LT等4個基準數據集上的廣泛實驗驗證了HALR顯著提高了長尾圖像分類性能,特別是在解決尾類樣本稀缺問題方面表現出巨大潛力。在不平衡因子為10和100的CIFAR100數據集上,HALR分別取得了88.25%和58.27%的最佳top-1測試精度。
作者簡介:
劉建偉,教師,學者。發表學術研究論文280多篇。研究領域涉及在線學習(包括強化學習,賭博機算法,持續學習,長尾學習);圖像視頻顯著性目標檢測,解糾纏表示學習,光場和神經場模型,以及圖像視頻少樣本變化檢測;自然語言理解中的知識補全,圖神經網絡;不平衡數據處理;霍克斯點過程故障預測與診斷;非線性預測與控制。 是兵器裝備工程學報第三屆編輯委員會委員。歷屆中國控制會議(CCC)和中國控制與決策會議(CCDC)的程序委員會委員。擔任過80多個國際會議的TPC。