論文題目:數字孿生輔助強化學習的燃氣站場巡檢任務分配算法
錄用期刊:電子信息學報(CCF中文C類)
作者列表:
1) 連遠鋒 中國石油大學(北京)人工智能學院 智能科學與技術系教師
2) 田 天 中國石油大學(北京)人工智能學院 計算機技術專業 碩22
3) 陳曉禾 中國石油大學(北京)人工智能學院 計算機系教師
4) 董紹華 中國石油大學(北京)安全與海洋工程學院 安全工程系教師
摘要:
針對燃氣站場機器人智能巡檢過程中由于突發任務導致的巡檢效率下降、任務延遲和能耗增加問題,該文提出基于數字孿生輔助強化學習的燃氣站場巡檢任務分配算法。首先基于多機器人、差異化任務的執行狀況,建立面向能耗、任務延遲的多目標聯合優化巡檢任務分配模型;其次利用李雅普諾夫理論對時間-能耗耦合下的巡檢目標進行解耦,簡化多目標聯合優化問題;最后通過結合數字孿生技術和PPO(Proximal Policy Optimization)算法,對解耦后的優化目標進行求解來構建多機器人巡檢任務分配策略。仿真結果表明,與現有方法相比,所提方法具有較高的任務完成率,有效地提高了多機器人系統的巡檢效率。
背景與動機:
當前我國燃氣站場安全管控主要是采用人工巡檢與監控技術相結合的方式,人工巡檢實時性差、巡檢效率低,難以發現站場微小泄漏,無法滿足智能化、無人化風險管控需求。使用機器人對燃氣站場中的液化裝置(LNG)、壓力容器、管匯等燃氣基礎設施進行巡檢具有適應性強、巡檢效率高、安全性好的優勢,對燃氣站場智能化管理具有重要意義。
設計與實現:
在任務延遲、能耗資源有限和差異化任務的多機器人燃氣巡檢場景中,考慮到能耗與時間耦合以及模型在真實環境中的適應性,本文研究了數字孿生輔助強化學習的燃氣站場巡檢任務分配,以解耦能耗時間相關性,提高數字孿生強化學習在實際環境中的應用。具體工作總結如下:(1)構建了一個面向能耗、延遲等多目標的聯合優化巡檢任務分配模型,考慮多機器人巡檢和差異化任務的執行需求,提升了任務分配的效率和實用性。(2)利用李雅普諾夫理論對時間耦合的巡檢能耗約束進行解耦,將原問題轉化為最小化李雅普諾夫漂移加懲罰項的上界,簡化了多目標優化問題。(3)針對物理空間和虛擬空間時間步長不同問題,提出數字孿生輔助的PPO(Proximal Policy Optimization)算法,對解耦后的優化問題進行求解,實現了多機器人巡檢任務的高效且穩定分配。在動態巡檢任務的燃氣站場環境中,探索近似最優的任務分配方法以實現機器人能耗和任務延遲最小化。
圖1 整體框架結構圖
實驗結果及分析:
圖2展示了PSO, GA, ACO, DRL, DDQN和DTPPO算法在任務分配中的路徑規劃結果??梢钥闯?,PSO算法雖然能夠較好地實現任務分配,但路線存在較多的交叉和繞行;GA算法通過遺傳操作提供了一定程度的路線優化,但在復雜環境下仍有重疊現象;ACO算法表現出較好的路線穩定性和較少的路徑交叉,但存在漏檢的情況;DRL算法在處理復雜場景時表現出較高的自主性,但仍存在路徑冗余;本文提出的算法相較于DDQN,機器人能夠高效避免路徑交叉與冗余,從而提升了任務完成的效率和穩定性。
圖2 機器人Pathfinding數據集巡檢路線
本文模型與其他模型的機器人燃氣站場巡檢路線如圖3所示??梢钥闯?,PSO和GA算法巡檢的目標點較少,存在漏檢的問題,任務資源平衡方面也存在不足;ACO算法能在一定程度上優化任務分配,但在復雜環境下,尤其是任務資源要求較高時,算法表現出較為明顯的局部最優解,未能充分挖掘全局最優解的潛力,因此任務分配存在不均衡的情況;DRL算法巡檢了更多的目標點,在處理動態任務分配時較為有效,能夠根據環境的變化做出調整;本文提出的算法相較于DDQN算法,任務分配的精確度和資源均衡性方面表現優異,能夠根據環境變化快速調整任務分配策略,減少資源浪費,并提高系統的整體效率。
圖3 機器人燃氣站場巡檢路線
結論:
本文提出了一種基于數字孿生輔助強化學習的巡檢任務分配算法。首先,構建以最小化機器人能耗和任務時延的多目標聯合優化巡檢任務分配模型。其次,考慮到能耗和時間之間的耦合關系以及電池容量約束,利用李雅普諾夫優化理論對目標函數的約束條件進行解耦,進而簡化了多目標優化問題。最后結合數字孿生技術和PPO算法,將李雅普諾夫漂移及懲罰項作為獎勵函數,對解耦后的問題進行求解。仿真部分針對不同因素對巡檢效率進行了討論,并驗證了本文算法的有效性和擴展性。未來的工作中將考慮將優化算法與李雅普諾夫理論結合改進多機器人任務分配算法。
作者簡介:
連遠鋒,教授。研究方向為圖像處理與虛擬現實、機器視覺與機器人、深度學習與數字孿生。