中文題目:深度長尾學習研究綜述
論文題目:Survey on deep long-tailed learning
錄用期刊/會議:自動化學報 (CAA A類期刊)
錄用時間:2024.7.28
作者列表:
1)韓佳藝 中國石油大學(北京)人工智能學院 控制科學與工程 博22級
2)劉建偉 中國石油大學(北京)人工智能學院 自動化系 教師
3)陳德華 東華大學 計算機科學與技術學院 教師
4)徐璟東 中國石油大學(北京)人工智能學院 控制科學與工程 碩22級
5)代 琪 中國石油大學(北京)人工智能學院 控制科學與工程 博20級
6)夏鵬飛 東華大學 計算機科學與技術學院 博22級
摘要:
深度學習是一門依賴于數據的科學,傳統深度學習方法假定在平衡數據集上訓練模型,然而,現實世界中大規模數據集通常表現出長尾分布現象,樣本數量眾多的少量頭部類主導模型訓練,而大量尾部類樣本數量過少,難以得到充分學習。本文綜合梳理和分析了近年來發表在高水平會議或期刊上的文獻,對長尾學習進行全面的綜述。
背景與動機:
大多數真實數據集通常呈現長尾分布 (Long-tailed Distribution),即數據集中的大部分數據屬于少量頭部類,而大量尾部類在數據集中出現的頻率極低,每類樣本數量從頭部到尾部呈指數遞減。在模型訓練過程中,頭部類主導了模型參數優化過程,導致模型對頭部類表現出過強的偏好。另一方面,由于尾部類包含的樣本數量過少,模型對尾部類學習不充分,難以學到良好的特征表示。長尾學習適用于數據本身類分布具有稀疏性的學習場景,能夠降低人工收集稀有類數據來構建平衡數據集的高昂成本,對于深度學習進一步部署于實際學習環境中有著重要意義。
主要內容:
本文從深度學習的設計流程出發,構建了一種新的長尾學習分類方法。對于圖像識別領域,重采樣與數據增強本質上都屬于構建信息量更均衡的輸入樣本空間。優化特征提取器、優化分類器、logits 調整和代價敏感加權損失函數方法旨在優化模型結構或模型參數,屬于優化模型空間的方法。在此基礎上,解耦學習、度量學習、知識蒸餾、集成學習和層次學習通過引入輔助任務,同時優化多個空間上的任務。此外,廣義長尾分布則是從多尺度建模長尾分布。在每個子類中,根據研究動機與實現手段對文獻進一步細化歸類。此外,本文對文本數據、語音數據等其它數據形式下的長尾學習算法進行簡要評述。最后,討論了目前長尾學習面臨的可解釋性較差、數據質量較低等挑戰,并展望了如多模態長尾學習、半監督長尾學習等未來具有潛力的發展方向。
圖1 深度長尾學習研究綜述組織結構圖
結論:
本文歸納與評述了長尾學習的研究現狀,依據模型設計流程將圖像識別領域的長尾學習算法分為優化樣本空間、優化模型空間與輔助任務學習三大類,并詳細分析每類長尾學習范式的研究動機與算法特點,對比了各種方法的優缺點,并對自然語言處理、時序預測等多種其它數據形式下的長尾分布任務場景進行介紹。最后,從原理解釋、數據質量、模型性能、計算資源與評價指標這5個方面討論了目前長尾學習研究的瓶頸,并提出若干個有前景的未來發展方向,為讀者提供更多思路。
作者簡介:
劉建偉,教師,學者。發表學術研究論文280多篇。