中文題目:SEGAL時間序列分類 - 基于生成模型與自適應加權的穩定LIME解釋方法
論文題目:SEGAL time series classification — Stable explanations using a generative model and an adaptive weighting method for LIME
錄用期刊/會議:Neural Networks(中科院大類1區 TOP)
原文DOI:10.1016/j.neunet.2024.106345
原文鏈接:https://www.sciencedirect.com/science/article/pii/S0893608024002697?via%3Dihub
錄用/見刊時間:May 10 2024
作者列表:
1)孟 翰 中國石油大學(北京)人工智能學院 智能科學與技術系教師
2)Christian Wagner 英國諾丁漢大學 計算機科學學院 教授
3)Isaac Triguero 英國諾丁漢大學 計算機科學學院 副教授
文章簡介:
在復雜系統的多變量時間序列分類任務中,深度學習模型展現了強大的性能,但其“黑箱”特性限制了模型在關鍵領域中的應用。LIME(Local Interpretability Model-agnostic Explanation)是一個強大的解釋黑箱模型解釋器,但是其在解釋時間序列問題時經常產生不穩定的解釋。為解決這一問題,本研究提出了一種基于生成模型的LIME解釋框架,利用生成式模型生成分布內的鄰居樣本,并引入自適應加權方法以提高解釋的穩定性。通過在對多個真實數據集的實驗表明本方法顯著提升了解釋的穩定性。
摘要:
LIME是一種廣泛使用的事后解釋方法,用于解釋黑盒模型。但是最近的研究表明LIME提供的解釋面臨不穩定的挑戰,提供的解釋不可重復,這讓人對其可靠性產生懷疑。本文研究了 LIME 在應用于多變量時間序列分類問題時的穩定性。研究表明,LIME 中使用的傳統鄰居生成方法存在創建“假”鄰居的風險,這些鄰居與訓練模型不符,并且遠離要解釋的輸入。由于時間序列數據具有很大的時間依賴性,這種風險尤其明顯。我們討論了這些不符分布的鄰居如何導致不穩定的解釋。此外,LIME 根據用戶定義的超參數對鄰居進行加權,這些超參數依賴于問題并且難以調整。我們展示了不合適的超參數如何影響解釋的穩定性。我們提出了一種雙重方法來解決這些問題。首先,使用生成模型來近似訓練數據集的分布,從中可以為 LIME 創建分布內樣本,從而創建有意義的鄰居。其次,設計了一種自適應加權方法,其中的超參數比傳統方法更容易調整。在真實數據集上的實驗證明了該方法的有效性,它能夠使 LIME 框架提供更穩定的解釋。此外,本文還深入討論了這些結果背后的原因。
背景與動機:
多變量時間序列分類(MTSC)在網絡安全異常檢測和醫療健康監控等領域有廣泛應用。近年來,深度學習在MTSC任務中表現出色,廣泛應用于各種場景。然而,深度學習模型作為黑箱模型,缺乏足夠的可解釋性,嚴重限制了其在需要可靠解釋的關鍵領域中的應用。
為了應對這一挑戰,諸如LIME等方法被廣泛用于解釋復雜的深度學習模型。然而,LIME方法在多次運行中可能產生不穩定的解釋。穩定性對于解釋方法至關重要,因為不穩定的解釋會使模型用戶對其可靠性產生懷疑。雖然已有研究嘗試通過增加樣本數量、改進采樣方法或優化超參數來提升LIME的穩定性,但這些方法忽略了生成樣本時未考慮訓練數據的分布,從而可能生成超出分布的樣本,從而導致了解釋結果不穩定的問題。
為了解決上述問題,本文提出了一種基于生成式模型的LIME解釋框架,利用Transformer生成符合訓練數據分布的樣本,并引入自適應加權方法,以優化解釋的穩定性。與現有工作相比,該方法在生成高質量樣本和提升解釋穩定性方面取得了顯著進展。本文的動機在于通過解決生成超出分布樣本的問題,提升LIME在多變量時間序列數據上的應用效果,進而提高機器學習模型的可解釋性。
設計與實現:
本文提出了一種名為 SEGAL(基于生成模型和自適應加權的LIME穩定解釋方法)解釋方法,旨在提高LIME在解釋MTS)任務中的穩定性。SEGAL主要解決兩個關鍵問題:(1) 生成遵循訓練數據分布的鄰居樣本,使其更加真實和有意義;(2) 優化LIME框架中的超參數,降低超參數優化的復雜度。
為了解決第一個問題,SEGAL引入了一種基于Transformer架構的生成模型,用于生成符合訓練數據分布的鄰居樣本。這些樣本真實地反映了模型的學習內容,從而為解釋提供了有意義的鄰居樣本。
圖1 基于Transformer的鄰居樣本生成方法
針對第二個問題,SEGAL提出了一種自適應加權方法,根據鄰居樣本與目標樣本的距離動態調整加權方式,從而提升解釋過程的可靠性。
圖2 自適應加權方法
SEGAL的工作流程如下:
1. 使用訓練數據訓練分類器和生成模型。
2. 利用生成模型為目標輸入生成鄰居樣本。
3. 使用訓練好的分類器對生成的鄰居樣本進行預測。
4. 采用自適應加權方法,根據鄰居與目標樣本的距離對樣本進行加權。
5. 在加權后的數據上擬合可解釋模型,生成最終的解釋結果。
方法實現:
1. 使用生成模型和局部采樣生成鄰居
LIME的解釋核心是通過分析模型對鄰居樣本的響應來解釋其對目標輸入的行為。為了確保生成的鄰居樣本既真實又接近目標輸入,SEGAL采用了一種基于Transformer的生成模型,結合“分布內采樣”和“局部采樣結合”,確保鄰居樣本來自與訓練數據相同的分布。
2. 自適應加權方法
在LIME中,控制鄰居樣本加權的超參數對解釋的穩定性至關重要。傳統LIME采用固定的加權策略,可能導致解釋結果不一致。SEGAL提出了一種自適應加權方法,根據鄰居與目標樣本的距離動態調整加權,通過引入了一個標量參數,決定解釋過程中考慮的鄰居樣本范圍。并且在給定的搜索區間內優化該參數,確保只有最相關的鄰居參與解釋,從而進一步提升解釋的穩定性。
實驗結果及分析:
在本實驗中,針對提出的SEGAL方法進行了多角度的實驗設計和分析。在“鄰居生成“方面,實驗結果顯示,傳統方法生成的鄰居樣本與目標樣本之間的距離較大,難以為解釋過程提供有效的鄰近樣本。而生成模型結合局部采樣策略的方法顯著改善了這一問題,生成的鄰居樣本更接近目標樣本,確保了解釋的局部性和有效性。
圖3 提出的鄰居生成方法產生了更接近于目標樣本的數據
通過與基準方法的比較表明,SEGAL在穩定性評估中表現突出,其解釋結果在多個數據集中表現優異。在Jaccard相似性指數的評估中,SEGAL在大部分數據集上都取得了較高的分數,證明了其在生成穩定解釋方面的能力。
結論:
在本文中,我們針對LIME在多變量時間序列分類問題中的穩定性進行了深入研究,特別是傳統鄰居生成方法引發的分布外問題(The Out-Of-Distribution Problem)對解釋結果的影響。為了緩解這一問題,我們提出在LIME的鄰居生成過程中引入生成模型,以生成分布內的樣本。實驗結果表明,采用該生成模型后,LIME提供的解釋變得更加穩定。同時,我們提出的自適應加權方法進一步提高了解釋過程的計算效率。
分布外問題是可解釋人工智能領域中公認的重要問題,對最終的解釋性能有著顯著影響。本研究首次系統地探討了該問題對LIME解釋穩定性的影響。由于在解釋過程中通常需要生成樣本,這不僅適用于LIME,還應引起其他類似解釋方法的重視。我們希望本研究的發現能夠為未來的研究提供啟發,繼續解決這一關鍵問題。
作者簡介:
孟翰,中國石油大學(北京)人工智能學院特任崗位副教授。本科和碩士畢業于中國石油大學(北京),分別獲得石油工程和油氣井工程學位,隨后在英國諾丁漢大學獲得計算機科學博士學位。于2024年加入中國石油大學(北京)人工智能學院。研究方向包括可解釋人工智能、生成式模型、時間序列分析等。專注于將前沿AI技術應用于石油行業的挑戰性問題。