中文題目:帶變量標識符的多變量長程魯棒預測模型
論文題目:An Enhanced Multivariate long-term Time Series Robust Forecasting Model with Distinguishable Variable Identifier
錄用期刊/會議:中國自動化大會 (CAA A類會議)
錄用時間:2024.9.19
作者列表:
1) 何洋洋 中國石油大學(北京)人工智能學院 控制工程 研22級
2) 劉建偉 中國石油大學(北京)人工智能學院 自動化系 教師
摘要:
最近,在多變量長期序列預測領域,線性模型受益于通道獨立性(CI)的訓練策略,表現優于之前大多數基于transformer的模型,并質疑注意力機制捕捉時間依賴性的能力。為了重新獲得Transformer的主導地位,我們進一步改進了基于塊的Transformer模型,但也有文章指出基于CI設計的模型存在空間不可區分的缺陷。為了解決這個問題,我們專門為Transformer模型設計了變量標識符(VD),賦予它變量區分能力。而且,我們學習到的變量標識符還可以大致描述變量之間的相似度。此外,為了提高模型抵抗數據噪聲干擾的能力,防止模型發生過擬合噪聲,采用了一種新的損失函數,融合了MSE和MAE損失函數的優點。為了進一步提高模型的性能,同時不增加額外的計算量,受計算機視覺的啟發,設計了一種多尺度CNN結構。該模型優于最近提出的線性模型和基于transformer的SOTA模型,在廣泛使用的開源數據集上的廣泛實驗表明,與最先進的方法相比,該模型的性能最高提高了4.4%。
背景與動機:
時間序列預測作為常見的時間序列任務之一,包括但不限于時間序列的分類、預測、填充和異常檢測,廣泛應用于能源、農業、工業、金融等領域,旨在通過過去的歷史序列預測一個時間步(單步預測)或多個時間步(多步預測)的未來序列值。時間序列預測有著悠久的歷史。近年來,由于深度學習方法無需人工特征的端到端訓練優勢,基于深度學習的時間序列預測方法逐漸成為主流?;谏疃葘W習的長期時間序列預測方法主要包括RNN(如LSTM、GRU)、CNN、Transformer等。
盡管模型結構越來越復雜,但令人驚訝的是,單層線性模型在預測精度方面優于幾乎所有更復雜的基于transformer的模型,并且具有極簡的模型結構,這使其成為一個強大的基線模型。這讓人們開始思考時間序列預測是否需要復雜的Transformer模型,這也啟發人們設計更多基于mlp的模型來代替Transformer,如TS-mixer,這是谷歌的MLP-Mixer模型在時間序列預測中的一個成功應用。最近,由Nie等人提出的基于transformer的模型PatchTST對時間序列進行單獨的patch(類似于計算機視覺中的Vit),并使用實例歸一化方法來大大提高預測結果,以應對zheng等人提出的問題。Lin等人也利用了補丁和多步并行預測技術來獲得良好的性能。PatchTST雖然效果較好,但對不同信道的時間序列采用信道獨立(CI)和參數共享的策略,導致存在空間不可區分的缺陷。解決這個問題的一個自然的想法是分別對不同的特征變量序列進行建模,但這將導致O(C)的計算復雜度,其中C代表整個輸入的時間序列(通道)的數量,我們使用的數據集最大有321個特征,這不僅消耗大量的資源,而且實驗效果有時比單個模型整體的效果更差。Shao等人提出通過附加身份信息很好地解決了這個問題。然而,該模型過于簡單,擬合能力不足,且嵌入操作會導致隱藏層維數成倍增加,并可能耗費不必要的計算資源。在本文中,以類似于位置嵌入的方式將變量身份信息融入到嵌入(VD)表示中可以緩解這一問題,盡管Chen等人對線性模型的時間序列預測能力進行了理論分析,表明線性模型在捕獲線性依賴方面仍然具有明顯的優勢,但我們將通過實驗表明,VD信息的直接添加對基于transformer的模型比線性模型更友好。此外,雖然Shao等人也將時間不可區分性作為模型性能的關鍵瓶頸,但對于長期時間序列,歷史窗口越長,發生該問題的可能性越小,因此本文不考慮該問題。
主要內容:
針對多變量時間序列預測中的空間不可區分問題,設計了一種新的VD (learnable channel embedding)嵌入方法。為了提高模型的魯棒性,采用Huber損失函數來克服MSE損失函數對異常值過于敏感的缺點。 本文嘗試設計一種多尺度CNN變體來提取多尺度特征。 本文提供了一個關于補丁嵌入的新視角和解釋。實驗表明,該設計顯著提高了模型性能,在71%的實驗中達到了最先進的性能。
圖1 模型結構
該模型包括一個抵抗分布偏移的REVIN、一個多尺度CNN、一個特別設計的變量標識符,以及一個具有殘差注意力分數的增強transformer。
結論:
在本文中,為了突破以往模型的性能瓶頸,創新性地設計了變量標識符,使模型能夠有效區分不同變量。提出了一種CNN風格的嵌入,并從趨勢-季節分解提供了一個新的分析視角來解釋為什么多尺度CNN是有效的。此外,我們重新設計了損失函數,以減輕噪聲數據的影響。實驗結果表明,該模型在大部分實驗中取得了較好的效果。
作者簡介:
劉建偉,教師,學者。