<meter id="hh1nh"></meter>
<th id="hh1nh"><em id="hh1nh"><delect id="hh1nh"></delect></em></th>

        <form id="hh1nh"></form>

          <listing id="hh1nh"><nobr id="hh1nh"></nobr></listing>
          <nobr id="hh1nh"></nobr>

            <th id="hh1nh"><form id="hh1nh"><font id="hh1nh"></font></form></th>
            <rp id="hh1nh"><progress id="hh1nh"></progress></rp>
            您所在的位置:首頁 - 科學研究 - 科研動態

            科研動態

            APF-DQN:基于改進的深度強化學習的建筑火災自適應目標路徑規劃算法

            中文題目:APF-DQN:基于改進的深度強化學習的建筑火災自適應目標路徑規劃算法

            論文題目:APF-DQN: Adaptive Objective Pathfinding via Improved Deep Reinforcement Learning among Building Fire Hazard

            錄用期刊/會議:ICANN 2024(CCF-C)

            原文DOI

            原文鏈接:

            錄用/見刊時間:2024.06.06

            作者列表

            1) 章可 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機科學與技術專業 碩21

            2) 朱丹丹 中國石油大學(北京)信息科學與工程學院/人工智能學院 智能中心教師

            3) 許秋晗 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機科學與技術專業 碩21

            4) 周昊 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機科學與技術專業 碩21

            5) 彭雪梅 香港科技大學(廣州)信息樞紐 數據科學與分析學域 博23

            摘要:

            疏散路徑規劃引導是確?;馂闹腥藛T生命安全的關鍵任務。目前的疏散規劃方法主要是計算確定性目標地點的最優路徑。然而火災疏散引導場景面臨著建筑物內部存在多出口、火災動態蔓延導致疏散路徑不穩定等關鍵挑戰。為了解決這些問題,本文提出了一種疏散智能體,采用一種人工勢場深度強化學習(APF-DQN)算法來計算疏散路線,使疏散智能體能夠選擇合適的出口并規劃動態疏散路徑。該算法在深度強化學習架構中引入人工勢場概念,引導智能體自適應地選擇目標出口,避免火災蔓延造成的傷害;同時深度強化學習算法保證疏散智能體規劃動態路徑。本文在仿真實驗中測試了APF-DQN并與幾種傳統路徑規劃方法進行了比較。與傳統的A*,APF,DQN方法相比,我們的APF- DQN算法規劃的疏散路徑所需要的時間成本降低了18.7%,距離火源點的安全距離增加了20.1%。本文代碼可以從 https://github.com/ColaZhang22/APFDQN-Indoor-fire-hazard-path-planning下載。

            背景與動機:

            面對火災隱患時,路徑規劃是建筑消防疏散系統的重要組成部分。然而隨著建筑物結構越來越復雜和建筑面積逐漸龐大,建立合理的疏散路徑可以有效減少火災造成的威脅。此外,由于建筑物內有多出口和動態火災隱患,傳統方法中固定疏散路徑不足以應對建筑物內的多出口問題。因此,建立一條動態、可靠和安全的路線成為火災疏散路徑規劃中一個關鍵問題。

            由于室內建筑結構規模龐大,傳統路徑規劃方法耗時長,因此在有限的疏散時間下是不可接受的。盡管已經有許多先前的研究嘗試解決這個問題,比如IACO和 Hierarchical A*。但目前的方法仍然存在兩個挑戰,如圖 所示。第一個問題是動態火災蔓延變化帶來的負面影響。隨著火災危險性的增加,環境中的某些路徑無法通過,而某些房間則成為疏散通道的障礙。第二個問題是大型建筑中存在多個出口。因此根據火災危險性選擇合適的出口是另一個重要問題。



            圖1 單目標出口疏散路徑規劃與自適應目標疏散路徑規劃

            為了解決上述問題,本研究構建了一種稱為人工勢場深度強化學習 (APF-DQN) 的方法來訓練疏散智能體規劃疏散路徑,引導待疏散人員在室內建筑物中以更短的疏散時間和更安全的距離進行避險疏散。本文在兩種建筑場景中檢驗了APF-DQN,并與三種典型的尋路算法進行了比較,基于APF-DQN的智能體能夠考慮火勢蔓延來規劃動態疏散路徑,并選擇合理的出口作為目標,以避免火災造成的損害。

            設計與實現:

            APF-DQN主要包含兩個模塊:基于數據的強化學習模塊(RL) 和基于知識的人工勢場模塊(DQN),如圖2所示。與經典的路徑規劃算法相比,基于 RL 的路徑規劃能夠提供實時動態疏散路線,從而避免計算開銷。同時,人工勢場模塊引導智能體自適應地選擇合適的目標出口作為目標,并根據建筑物內火災危險的變化調整目標出口。



            圖2 APF-DQN 算法

            強化學習模塊:為了減少計算最優路徑的時間消耗實現實時規劃疏散路徑,采用DQN作為火災疏散場景的路徑規劃框架。本問將火災疏散引導系統視為DQN中的疏散智能體,與火災疏散環境進行交互。疏散引導智能體根據自身狀態和火災危險情況規劃下一個疏散坐標并調整目標出口。

            在火災疏散場景中,疏散引導智能體從環境中感知周圍屬性,如當前坐標和火災發生位置,作為智能體的狀態。然后,火災疏散引導智能體根據感知到的信息選擇下一個逃生動作。最后,火災疏散環境將獎勵反饋給火災疏散引導智能體?;馂氖枭⒁龑е悄荏w的目標是積累并最大化這些獎勵:



            經典強化學習算法Q-learning引入了價值函數來估計疏散代理當前配對動作狀態的值:



            更高的Q值意味著當前疏散位置更安全,并且疏散引導智能體傾向于選擇該逃離位置作為下一次行為選擇中的最佳行為。在訓練過程中,為了在探索和開發之間保持平衡,疏散代理采用epsilon-greedy策略來選擇下一步行動:



            在火災疏散環境中,基于強化學習的算法可能實時進行疏散路徑規劃,然而火災的發展擾亂強化學習理論中馬爾可夫過程過程的假設,從而導致疏散智能體的決策產生錯誤。在某些情況下,疏散引導智能體會判斷并選擇距離安全出口最近的下一步行動,但這種選擇可能會因火災的副產物和火情的蔓延而出錯。為了消除火災發展對DQN在火災疏散中的影響,本研究將人工勢場 (APF) 引入了DQN。



            人工勢場模塊

            人工勢場模塊:APF模塊生成兩個力場,包括吸引力場和排斥力場。在火災疏散場景中,火災和障礙物產生排斥力場,引導疏散引導智能體遠離火災隱患。同時建筑物中的多個出口分別產生吸引力場,引導疏散引導智能體朝向目標出口。因此,APF能夠準確反映火災的變化信息,并消除DQN算法中因為火災發展和不同場景導致的建筑環境不穩定性。

            APF中的吸引力場表示多出口吸引力的強度,公式表示為:



            由上式可知,隨著距離的縮短,引力場變得更大,疏散引導智能體將被引導到建筑物中所有出口中最近的出口。然而,當火災危險發生在最近的出口附近時,最近的出口并不是理想的目標。因此,APF 中的排斥力場也用于指導疏散引導智能體的路徑規劃。與引力場相比,排斥力場也表示障礙物或火點排斥力的強度。排斥力場公式表示如下:



            排斥力場公式說明,當疏散引導智能體離火災點越近,智能體受到的排斥力就越大。因此,疏散引導智能體傾向于與火災隱患保持安全距離,同時被引力場引導至合適的出口。

            此外,在傳統的強化學習中,DQN存在稀疏獎勵問題阻礙了疏散引導智能體從經驗樣本中有效地學習。因此,APF的變化被視為兩種狀態之間的獎勵函數,以提高訓練質量,本文使用:



            作為APF-DQN的獎勵函數。疏散引導智能體每一次采取行動,都可以獲得獎勵來評估動狀態的好壞;當疏散引導智能體到達出口時,它會獲得一個固定的獎勵。

            實驗結果及分析:

            本文利用兩種環境來測試我們提出的方法來驗證算法的可擴展性,一種環境包含兩個出口和一個火災發生點,另一種環境考慮三個出口和一個火災發生點。實驗結果如圖4所示,每個點表示空間內對應狀態的Q值。顏色越深即Q值越高,意味著疏散引導智能體傾向于采取 值較高的行動。在訓練開始時,每個狀態的 值是不規則的,因此代理無法正確選擇行動。在訓練過程中,出口附近的狀態具有較高的 值,而環境中靠近火災隱患的狀態具有較低的值。因此,疏散代理能夠在多個出口中自適應地選擇合適的出口,同時遠離遠處的隱患。



            圖4 狀態價值函數變化

            至于疏散路徑,本文的疏散引導智能體初始被設置到建筑中的隨機位置,火災隱患也發生在隨機位置。如圖5所示,APF-DQN算法能夠在各種情況下找到逃離火災的最佳疏散路徑,并選擇遠離火災的路線以避免火災隱患造成的損害。同時基于APF-DQN 規劃的疏散路徑表明,當同時面臨多個出口時,疏散引導智能體愿意選擇遠離火災點的出口。在5的 (c)(d) 中,規劃的疏散路線顯示,盡管一些出口靠近疏散引導智能體的當前狀態,但疏散引導智能體更傾向于規劃一條相對較遠但更安全的路徑以確保逃離火災。



            圖5 基于APF-DQN的疏散路徑

            然后,本文從兩個指標評估提出的 APF-DQN算法,即疏散時間和疏散引導智能體到火災發生點的最短距離。疏散時間表示疏散引導智能體從初始坐標到達適當出口所花費的時間步長。在火災隱患疏散中,較短的疏散時間意味著代理能夠有效地到達出口,從而避免火災隱患造成的損害。最短火源距離表示從疏散引導智能體到火災發生點的距離,較長的最短火源距離表示智能體距離火災發生地較遠,能夠更安全的到達出口。



            圖6 APF-DQN對比實驗

            本文對兩種經典路徑規劃方法 A-star 和 APF 進行了對比實驗,如圖6所示。在我們的實驗中,對于每個代理,初始位置的差異會顯著影響疏散時間步長和距離火災的最近距離。因此,本文實驗采取100次仿真,并計算平均距離和時間步長以消除誤差。同時與傳統強化學習算法DQN對比,如表1所示,APF-DQN具有最短的疏散時間和距離火災危險最大的距離。

            表 1 對比實驗結果



            結論:

            本文重點研究了火災建筑環境中的疏散路徑規劃引導問題。建筑物中存在多個出口和動態火災隱患,因此疏散引導智能體需要選擇合適的目標出口來逃生并避免火災隱患造成的損害。傳統方法需要針對每種情況重新計算疏散路線,并且只為固定出口提供靜態路徑。然而,火災發生的地點是隨機的,同時多個出口會導致疏散路線動態變化。

            為了解決這些問題,本文提出了一種APF-DQN算法來規劃到出口的疏散路徑。APF-DQN 將人工勢場方法融合到深度強化學習中,以計算最短疏散路徑并同時保持與火災點的安全距離。此外,APF-DQN能夠在環境中的多個出口中自適應地選擇合適的出口,并根據吸引力場和排斥力場的變化構造獎勵函數,從而引導疏散引導智能體感知火災的發展,選擇合適的出口并規劃疏散路線。

            作者簡介:

            朱丹丹:博士,智能中心副教授,碩士生導師。目前主要研究方向是強化學習和數據挖掘。聯系方式:zhu.dd@cup.edu.cn


            99亚洲综合精品