中文題目:基于多傳感器融合的高維工業控制數據集典型相關模式可視化探索
論文題目:Visually exploring canonical correlation patterns of high-dimensional industrial control datasets based on multi-sensor fusion
錄用期刊:Journal of Visualization (中科院SCI 4區,JCR Q4)
原文DOI:https://doi.org/10.1007/s12650-024-01008-7
作者列表:
1) 紀連恩 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機系教師
2) 劉梓彤 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機科學與技術 碩 22
3) 吳洪凡 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機科學與技術 碩 19
4) 劉京博 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機科學與技術 碩 20
5) 楊 光 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機科學與技術 碩 22
6) 田 彬 國能智深控制技術有限公司 高級工程師
摘要:
對于配備高密度傳感器的大型復雜工業設備,探索其生成的多區域監控參數對后續控制環節的潛在影響對于優化控制過程具有重要意義。然而,這些眾多監控參數與隨后的受影響參數之間關聯的內在機制和隨機性復雜,并且控制系統的每個工況都有其獨特性和控制規則,這使得有效分析這些不同類別參數集之間的相關性變得具有挑戰性。本文提出了一種結合參數融合和典型相關性分析(CCA)的方法,針對這種高維工業控制數據,構建了一個支持多視角和多層次探索典型關聯模式的可視化分析框架CAPVis。對于單個工況,我們通過特別設計的三部圖可視化典型相關關系的復雜結構,并使用多個輔助視圖評估這些關系的冗余性和穩定性。對于多個工況,我們設計了不同的可視化比較策略,支持從局部到全局的多對多典型相關模式比較。在真實工業控制數據集上的實驗和領域專家的反饋證明了CAPVis的有效性。
背景與動機:
在現代工業控制系統中,常常需要布置大量高密度傳感器來監控大型復雜設備的運行狀態。例如,在火力發電廠中,不同區域分布的高密度溫度傳感器生成的大規模壁溫數據代表了爐膛內不同部分的燃燒特性,并對一系列后續控制參數(如蒸汽壓力和溫度等)有著重要影響。通過揭示這些壁溫和后續控制參數之間的相關模式,操作人員可以更精確地調整鍋爐的運行狀態,以提高設備運行的安全性和經濟性。然而,這些眾多監控參數與隨后的受影響參數之間的關聯機制和隨機性復雜,并且每個工況下都有其獨特的運行特性和控制規則,這使得有效分析這些不同類別參數集之間的相關性變得非常困難。典型相關分析(CCA)可以用來探索這種多對多的關系,通過生成較少數量的復合變量來表示兩個變量集之間的全局關聯。但是這種方法的內部計算過程和結果復雜,難以直觀理解和評估。為此,本文將交互式可視化技術引入工業參數相關性分析過程中,重點解決三個方面的研究挑戰:(1)大規模高維傳感器數據的靈活融合處理;(2)不同類別工業參數之間典型相關性的全面表示和評估;(3)不同工況下工業參數典型相關性模式的交互比較。
數據與任務分析:
數據描述與分析方法
本文數據來源于中國南方某火電廠2020年10月至12月期間660MW超超臨界燃煤機組的鍋爐控制過程,采樣間隔為5秒,原始數據大小為12GB。監控參數包括鍋爐不同內表面的1016個傳感器,例如高溫過熱器、低溫過熱器、后墻隔板和水冷壁等區域。提取了22個后續控制參數,主要包括過熱度、高溫過熱器出口主蒸汽壓力、一次再熱和二次再熱等。這些提取的數據進一步根據機組的發電負荷范圍劃分為多個工況。
為了對上述數量眾多的壁溫測點進行有效融合,基于相似性的數據融合方法,我們先對每個爐膛空間區域進行聚類,然后再使用分批估計算法對每一類測點進行數據融合,以求得可以宏觀反應當前類的代表特征。對于同一類測點,按照每個測點的不同位置,參考系統位置相近不在一組和空間位置相鄰不在一組的分組原則,將所有測點分為2組處理:A組為當前類中的奇數排測點和偶數列測點,B組為當前類中的偶數排測點和奇數列測點。接下來,采用CCA方法計算上述融合后的壁溫測點與受影響的后續控制參數之間的全局相關性。相比局部相關性,全局相關性分析考慮了所有子元素之間的相關結構,并尋找兩組數據最佳表示的線性組合。給定兩個多變量時間序列數據集X和 Y:
其中,N代表的是時間序列的長度,代表
包含的子元素個數,CCA發現每對
和
之間的線性關系:
和
稱為典型權重。系數矩陣
和
是通過最大化典型變量
和
之間的典型相關系數得到的。
通過CCA得到的典型變量和典型權重不是唯一的,當處理大量數據時,分析每對典型變量會變得非常繁瑣。因此,針對CCA多模式的問題,需要提供全面的評價機制,幫助用戶篩選有意義的模式進行分析。
可視化任務提煉
本文應用Sedlmair等人(2012)的9階段設計研究方法,與四位領域專家緊密合作,提煉了如下分析目標:
G1:高效提取和檢查多區域高密度傳感器數據的代表性監控特征;
G2:全面展示特征參數與受影響參數之間的復雜關聯;
G3:綜合評估單一工況下多個典型相關性的質量;
G4:靈活探索和比較多個工況下典型相關模式的共性和差異。
根據這些分析目標和專家反饋,設計了如圖1所示的數據分析模型,提煉了以下可視化分析任務:
T1:構建子區域多傳感器數據的交互式融合過程。每個監控區域包含多個測量點,必須高效提取代表性特征參數(G1)。應使用交互式可視化比較不同的聚類方法,以選擇最佳的分類和融合方法。
T2:多指標評估數據融合結果。多傳感器數據融合的有效性對后續相關性分析有重要影響(G1,G2)。需要將融合結果的時間變化特性與原始數據進行比較,同時應使用多個誤差指標(如RMSE、MAE和MAPE)定量檢查融合精度。
T3:直觀展示高維參數集的局部相關性。單個參數集內和不同參數集之間的成對局部分析可以幫助用戶理解這些高維參數之間的基本相關性和冗余性(G1,G2,G4)。
T4:可視化展示融合特征集與受影響參數集之間的CCA結果。CCA用于分析兩個數據集的多個子元素之間的相關性,從而全面考慮和展示所有參數之間的全局相關結構。用戶還可以關注單個典型相關關系,并根據領域知識確定該關系是否有趣或顯著(G2,G3)。
T5:多視角檢查典型相關關系。有效的關系首先需要在整體上表現良好,例如,具有較高方差貢獻度和冗余性。此外,這些關系在局部時間段內應保持一致和穩定。因此,交互式視圖應支持從多個角度對每個典型相關關系進行可視化檢查(G3)。
T6:多工況下典型相關模式的多層次比較。用戶需要探索不同工況下的典型相關模式,并發現它們之間的相似性。由于每個工況包含多個代表其獨特運行特征的典型相關關系,應有效地展示不同層次的對比(G4)。
圖1 數據分析模型
可視化設計:
系統概覽
本文基于以上挑戰和分析任務,構建了一個名為CAPVis的可視分析框架。如圖2所示,可視化界面主要分為四個功能區域:傳感器數據融合和評估視圖、局部相關性分析視圖、典型相關性分析視圖和控制面板。CAPVis支持包含以下三個模塊的整個分析流程:
1. 傳感器數據融合:傳感器數據融合模塊進行數據預處理。首先,用戶選擇具有特定工況的數據集,對監控設備不同空間位置進行多次聚類分析和可視化比較,然后對傳感器數據進行子區域融合。將融合結果可視化以幫助分析人員確認融合效果,其他工況的數據集也以相同方式處理。
2. 局部相關性分析:在融合參數和受影響參數(用戶預先確定)上進行局部相關性計算后,參數的組內相關性和方差被可視化,組間相關性在熱圖矩陣中可視化。然后用戶可以選擇感興趣的參數以分析其相關特性。
3. 典型相關性分析: CCA視圖顯示當前工況下的詳細典型相關模式(使用貢獻度表示每個參數的重要性)。冗余性檢驗視圖顯示每個典型相關關系包含的原始數據信息量。穩定性檢查視圖幫助找到相關結構發生顯著變化的局部時間段。當切換到多個工況時,工況比較視圖首先可視化不同工況的局部特征,然后通過多個分層圖形和多符號散點圖概述典型相關模式的整體相似性,最后支持相似工況詳細信息的比較。
圖2 CAPVis系統主界面
三部圖的設計
CCA視圖使用三部圖可視化兩個多變量參數集之間的典型相關模式,基本設計原理如圖3所示,它由兩個二部圖和一系列散點圖組成,分別表示融合監控參數集、受影響參數集和典型變量對集。如圖4所示,每條鏈接表示原始變量對典型變量的貢獻度,線條粗細編碼貢獻度,紅色為正相關,藍色為負相關。為減少視覺雜亂,對鏈接和節點的布局進行了優化。
圖3 三部圖的設計
首先,鏈接用貝塞爾曲線表示,以實現邊緣捆綁。其次,同一區域的融合參數垂直排列在一起,用實線邊框表示,不同子區域用虛線分隔,這些區域按照空間位置排序,減少了弧線交叉。此外,設計了節點排序算法,用于對受影響參數進行排序,包括整體關聯和局部關注兩種展示方式。在整體關聯情況下,通過計算所有典型變量對所有受影響參數的總加權貢獻對節點進行排序。以典型交叉載荷為貢獻度量,先計算8個典型變量的方差貢獻,然后獲得受影響參數相對于每個典型變量的典型交叉載荷,定義排序得分為:
得分越高,節點位置越高。鏈接則按從粗到細、從紅到藍排列,提供更清晰的視圖。
在局部相關性中,當選擇典型變量集中的特定節點時,所有受影響參數節點僅根據相對于當前典型變量的典型交叉載荷重新排序,這樣可以完全消除鏈接之間的交叉。
圖4 單工況與多工況下的三部圖布局
案例分析與評估:
多源融合與評估
在進行CCA之前,領域專家需要全面理解和評估多傳感器數據融合結果。以功率范圍326-339MW的工作狀態為例,圖5展示了鍋爐中高溫和低溫過熱器部位的多傳感器數據交互融合過程。首先,圖5a可視化了原始測量點的空間位置,并用顏色映射平均壁溫,顯示高溫過熱器的中部和低溫過熱器的下部區域溫度較高。其次,專家通過比較輪廓系數選擇了層次聚類(AC)和譜聚類(SC)作為最佳分類方法,聚類結果與溫度分布一致(圖5b)。最后,分批估計融合結果在RMSE、MAE和MAPE方面顯示出比其他方法具有更小的誤差值(圖5c)。專家通過觀察特征變量和原始測量點平均值的時間變化,發現它們的波動存在明顯差異,表明這些特征變量能夠有效反映同一區域內不同的溫度分布特征。
圖5 多源融合與評估分析
單工況典型相關模式分析
單一工況下,專家希望探索壁溫參數集與受影響參數集的關聯。如圖6所示,通過觀察散點圖和條形圖,發現水冷壁區域的溫度參數波動較大且高度相關。接著,利用CCA視圖專家評估壁溫參數與受影響參數之間的典型相關模式,從冗余性、穩定性和貢獻度等方面進行了分析。結果顯示,前三對典型變量包含了大部分信息,主要影響過熱度、啟動分離器壁溫和高溫過熱器出口主蒸汽壓力。專家指出,這符合溫度傳遞路徑,并表示未來可據此調整局部壁溫,優化受影響參數狀態。
圖6 單工況典型相關模式分析
多工況模式對比
多工況下,專家更關注典型相關模式的差異。通過圖7a中符號對比,發現高功率工況(569-645MW)下第一列符號高度相似,而低功率工況(339-409MW)下所有列均相似度較高。查看多符號散點圖(圖7b),專家發現第一個關系模式具有一般性,受功率影響小,第二和第三個關系則更獨特。選擇三個符號相似的工況(569-595MW、595-604MW和626-645MW)進行詳細比較,發現原始參數對第一個典型模式的貢獻值無顯著差異(圖7d)。此外,高功率和低功率工況下典型變量的值分布相反(圖7c),專家猜測壁溫在這兩種工況下對后續控制參數(尤其是“過熱度”)產生相反影響。
圖7 多工況模式對比分析
系統評估
為評估系統的有效性,邀請四位專家進行了結構化實驗和訪談,請他們在限定時間內完成任務P1-P7,之后匯總并統計了專家完成任務所用時間,并通過系統可用性量表(SUS)定量評估系統的可用性。圖8顯示了預設任務時間與實際操作時間的比較。藍色框表示專家完成任務的平均時間,結果顯示實際操作時間短于預設時間,表明專家迅速熟悉了系統。任務P7(快速識別多工況相似性)的操作時間差異較大,表明不同用戶在學習該復雜任務時存在差異。SUS問卷量表的評估結果如表1所示,系統的平均得分為82.52,顯著高于SUS平均得分(68)的閾值,表明系統的可用性良好。
圖8 預設任務時間與實際操作時間比較
表1 系統可用性評分結果
結論:
本文提出了一種結合多傳感器融合和典型相關分析(CCA)的可視化分析框架CAPVis,用于全面探索高維工業控制數據中的典型相關模式。首先,采用數據融合方法結合聚類過程,交互式提取并評估每個區域的傳感器數據特征,然后應用CCA自動生成特征參數集與后續受影響控制參數集之間的典型相關性。其次,設計了一系列有效的可視化映射和協調視圖,支持單一工況下典型相關性的多視角評估和多工況下典型相關模式的多層次比較。通過真實案例研究和專家評估,驗證了CAPVis的實用性和有效性。雖然本文工作針對的是火電鍋爐的運行數據,但從分析方法和可視化設計上看,CAPVis系統具有較強的通用性,可推廣到其他工業領域。例如,如化工廠的傳感器參數分析或煉油廠的多工況比較分析及大規模傳感器數據的特征提取或空氣質量數據的分類等。我們開發的多角度評估視圖可以適用于其他使用CCA方法的項目。此外,我們為典型相關模式分析開發的可視化技術可以應用于其他領域數據集的多層次相關分析以及多個數據集的比較分析。
作者簡介:
紀連恩,博士,副教授,研究生導師。主要研究領域為大數據可視化與智能分析、可解釋機器學習及工業領域應用、虛擬現實與計算機仿真、計算機圖形學與人機交互技術等。主持和參與了國家自然科學基金、國家科技重大專項和重點企業合作項目多項?,F為中國計算機學會(CCF)人機交互專委會委員、中國圖象圖形學學會(CSIG)可視分析專委會委員以及虛擬現實專委會委員。
聯系方式:jilianen@cup.edu.cn