<meter id="hh1nh"></meter>
<th id="hh1nh"><em id="hh1nh"><delect id="hh1nh"></delect></em></th>

        <form id="hh1nh"></form>

          <listing id="hh1nh"><nobr id="hh1nh"></nobr></listing>
          <nobr id="hh1nh"></nobr>

            <th id="hh1nh"><form id="hh1nh"><font id="hh1nh"></font></form></th>
            <rp id="hh1nh"><progress id="hh1nh"></progress></rp>
            您所在的位置:首頁 - 科學研究 - 科研動態

            科研動態

            一種基于遷移強化學習的目標感知井眼軌跡控制方法

            中文題目:一種基于遷移強化學習的目標感知井眼軌跡控制方法

            論文題目:A Target-Aware Well Path Control Method Based on Transfer Reinforcement Learning

            錄用期刊/會議:SPE Journal (JCR Q1)

            原文DOI:https://doi.org/10.2118/218409-PA

            原文鏈接:https://doi.org/10.2118/218409-PA

            錄用/見刊時間:2024/01/15

            作者列表

            1) 朱丹丹 中國石油大學(北京)信息科學與工程學院/人工智能學院 智能中心 副教授

            2) 許秋晗 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機科學與技術 研21

            3) 王   菲 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機科學與技術 研19

            4) 陳   冬 中國石油大學(北京)石油工程學院 油氣井工程系 副教授

            5) 葉智慧 中國石油大學(北京)安全與海洋工程學院 海洋油氣工程系 副教授

            6) 周   昊 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機科學與技術 研21

            7) 章   可 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機科學與技術 研21

            文章簡介:

            井眼軌跡控制技術是指遵循預先設計好的井眼軌道,控制鉆頭的實際鉆進方向,使得實際鉆進軌跡盡可能地與預設井眼軌道貼合。在石油工程中,井眼軌跡控制技術對于鉆井質量、采收效率及資金投入等方面具有至關重要的意義。目前,全球油氣勘探的趨勢正在朝著超深水、超深層、低滲透、非常規等方向發展,井眼軌跡控制技術迎來了巨大的挑戰。隨著油氣行業對采收率及鉆井成本要求的不斷提高,傳統井眼軌跡控制技術已然無法滿足復雜油氣藏在軌跡精度和鉆進效率等方面的需求,井眼軌跡控制技術亟待突破。但是,隨著油氣藏復雜度的不斷提高,井眼軌跡控制技術正面臨著復雜油氣藏高溫、高壓及高陡等特點所帶來的嚴峻挑戰。同時,鉆進過程中的非線性、強干擾、高耦合、滯后性及時變性也為井眼軌跡控制技術帶來了很多棘手的問題。而大多數傳統井眼軌跡控制方法通常是基于空間幾何關系,結合某些線性化的約束和假設進行構建,無法對鉆進過程進行準確的描述,與實際井眼軌跡控制工作有一定差距,智能化程度低。而現有的智能井眼軌跡控制技術也尚未成熟,僅在某一或特定環境下表現優異,算法的抗干擾性和自適應性還需要進一步研究。

            基于以上背景,本文聚焦于井眼軌跡跟蹤控制,針對實際鉆進過程中存在的強干擾、非線性等問題,提出了一種基于強化學習和遷移學習的井眼軌跡自適應跟蹤控制方法。該方法采用基于優先級經驗回放機制的深度確定策略梯度(Deep Deterministic Policy Gradient,DDPG)模型,并通過遷移學習加速模型學習,提高系統的泛化能力。該方法能夠在三維模擬鉆進環境中精準跟蹤預設軌道,并在不確定干擾約束下表現出優秀的抗干擾性,準確引導井眼軌跡到達靶區。同時,該方法具備良好的自適應能力,當預設井眼軌道與實際隨鉆數據不符時,能夠對軌跡控制決策進行優化,提高目標油層的鉆遇率。

            摘要:

            在實際施工過程中,由于地質因素、鉆井工具以及井眼擴大等原因導致井眼不可避免地發生偏斜,井眼軌跡控制任務通常具有挑戰性。傳統的井眼軌跡控制方法大多側重于精細的物理模型構建,這些方法通常建立在一定的約束或假設的基礎上,而它們準確捕捉實際鉆井過程的能力有限、智能水平低、抗干擾性能差、自適應能力弱。為了解決這些問題,本文提出了一種結合強化學習和遷移學習的目標感知井眼軌跡控制方法,從而構建了具有較強抗干擾能力的目標感知井眼軌跡自適應控制系統。本文提出的基于強化學習和遷移學習的井眼軌跡目標感知控制方法,能夠在不同地質環境下準確跟蹤預定軌跡,高精度到達靶區,在目標軌跡與油藏實際分布不匹配的情況下,利用MWD進行合理的軌跡優化決策。該方法具有良好的抗干擾能力和自適應能力。

            背景與動機:

            井眼軌跡控制在鉆完井工程中起著至關重要的作用。實際鉆井過程復雜,具有變異性和不確定性,因此井眼軌跡控制存在一定難度。在常規井眼軌跡控制方法中,研究的重點主要是建立經驗模型和數值模型。然而,在實際鉆井過程中,由于具有較強的非線性、復雜性、時變性和不確定性等特點,始終存在跟蹤誤差和粘滑振蕩等問題。

            在井眼軌跡控制的背景下,實現最優控制通常需要專家知識。利用人工智能的魯棒性,智能井眼軌跡控制算法可以實現更強的自適應井眼軌跡控制。在地層條件復雜的實際油田中,自適應方法最初可能需要專家知識的指導。通過不斷的學習,系統可以逐漸掌握知識,并將其應用到類似的地質環境中。本文提出的方法有望幫助鉆井人員完成更多的任務,從而降低人工成本。

            設計與實現:

            井眼軌跡控制本質上是BHA的控制。為了實現井眼軌跡的實時高效控制,本文設計了一種基于強化學習和遷移學習的目標感知井眼軌跡控制系統。該系統在完成鉆井作業的同時,能夠保持較強的抗干擾性和適應性。本文定義了鉆井環境任務中的基本要素,包括狀態空間、動作和獎勵函數。其整體系統結構如圖1所示。


            圖1 自適應鉆井系統框架


            如圖1所示,定向井軌道經過設計而預先確定,隨后針對相關數據進行計算,以獲得預先設置的井眼軌跡數據。本文以方位角和傾角作為描述井眼軌跡的物理量。在遷移學習部分,模型將目標任務的狀態空間映射到源任務。當前井眼軌跡傾角數據和預先設定的井眼軌跡數據作為DDPG網絡模型的輸入。在強化學習部分,鉆井智能體在與環境的交互中對策略進行優化,以獲得最大的獎勵。隨后,模型將輸出源任務操作映射到目標任務操作。通過這種方式,可以實現井眼軌跡的實時跟蹤和控制。整個系統通過隨鉆測量實現信號反饋,并實時調整DDPG神經網絡模型參數,最終生成井眼軌跡。通過重用源任務生成的知識來完成目標任務。當測井數據與實際隨鉆數據不符時,系統可以通過遷移學習重新利用過去的知識來規劃合適的井眼軌跡。在此過程中,鉆井策略自適應調整以達到目標儲層,確保有效跟蹤預設的井眼軌跡。

            主要內容:

            1. 井眼軌跡跟蹤控制問題形式化

            為了通過強化學習解決井道控制問題,本文首先將問題形式化,將其轉化為三個部分:定義智能體的狀態空間、動作空間和獎勵函數。

            狀態空間如下所示:

            本文將aω與aγ作為DDPG模型的井眼軌跡控制動作??紤]到真實BHA的工具限制,定義ω方向的控制動作aω的取值范圍為[0,π/2],定義γ方向的控制動作的aγ取值范圍為[0,2π]。


            圖2 井眼軌跡控制過程


            為了構建具備自適應能力的井眼軌跡跟蹤控制模型,新獎勵函數的設計如下:

            其中,R1為單步獎勵,R2為回合獎勵。R1的計算由兩部分組成:

            其中,r1代表對預設軌跡的跟蹤獎勵,r2代表在目標油層中行進的獎勵,λ作為調節兩獎勵權重的系數。r1與r2獎勵的計算公式如下所示:



            獎勵R2是回合獎勵,其設置的目的是為了激勵智能體到達靶區,其計算公式如下:

            2. 基于DDPG的井眼軌跡控制模型

            本文所建立的DDPG模型的輸入向量維度為5,為當前井眼軌跡井斜數據及預設井眼軌道數據。模型的輸出為作用于BHA的方位角和傾斜角。建立的DDPG模型的網絡結構如圖所示。



            圖3 DDPG網絡模型


            考慮到井眼軌跡跟蹤控制系統的復雜性,為了進一步提高DDPG模型的訓練效率與穩定性,本文對DDPG模型進行了改進,摒棄了傳統經驗回放的隨機采樣機制,采用了一種基于優先級的經驗回放機制。

            在本文所設計的基于優先級的經驗回放機制中,經驗的抽樣并非隨機從經驗池中進行抽取,經驗抽樣的概率分布如下所示:


            3. 控制策略遷移學習

            基于遷移學習的DDPG模型需要解決的是如何將源領域的策略網絡和價值網絡遷移到目標領域的策略網絡和價值網絡。

            對于策略網絡,其定義為,即對于當前狀態輸出一個確定性動作。從本質而言,策略網絡是一個非線性策略逼近器,用于對策略模型π(a|s)進行逼近。因此,對策略網絡的遷移實質上是對源領域的狀態-動作關系進行遷移。策略網絡具體的遷移過程如圖4所示。


            圖4 策略網絡遷移過程

            實驗結果及分析:

            為了驗證基于強化學習和遷移學習的井眼軌跡跟蹤控制算法的有效性,測試算法的抗干擾能力與自適應能力,本文設計了井眼軌跡跟蹤實驗、抗干擾實驗及自適應實驗。


            1. 井眼軌跡跟蹤實驗

            圖5為基于隨機經驗重放的DDPG模型收斂后的井眼軌跡對比圖。紅色軌跡代表預先設定的井眼軌跡,藍色軌跡代表實際井眼軌跡。圖6為井眼軌跡水平投影對比圖,其中橫軸為東西方向位移,縱軸為南北方向位移。圖7為井眼軌跡垂直投影對比圖,其中橫軸為視平移,縱軸為垂深。



            圖5 基于RER的DDPG模型井眼軌跡比較

            圖6 基于RER的DDPG模型的水平投影圖

            圖7 基于RER的DDPG模型的垂直投影圖


            同理,圖8、圖9、圖10分別為基于優先級經驗回放機制的DDPG模型在收斂后的井眼軌跡對比圖、井眼軌跡水平投影對比圖、井眼軌跡垂直投影對比圖。



            圖8 基于PER的DDPG模型井眼軌跡比較

            圖9 基于PER的DDPG模型的水平投影圖

            圖10 基于PER的DDPG模型的垂直投影圖


            可以看出,在收斂后兩模型的跟蹤效果基本一致,均能完成對預設井眼軌道的跟蹤任務。

            為了進一步對比兩模型的訓練效率與跟蹤性能,驗證基于優先級經驗回放機制的優化效果,本文采用最大偏移距離對兩模型進行對比評估。圖11為兩模型的訓練效果對比圖。

            圖11 兩模型訓練結果


            兩模型最終都能達到收斂,且收斂后的最大偏移距離基本一致,都在1.5米左右。但基于優先級經驗回放機制的DDPG模型的訓練效率明顯優于基于隨機經驗回放機制的DDPG模型。在本實驗中,基于優先級的經驗回放機制的訓練效率約為隨機經驗回放機制的兩倍。


            2.抗干擾實驗

            考慮到鉆頭和巖石之間的相互作用具有強烈的不確定性,本實驗在鉆進模型與地質模型之間采用了隨機相互作用模型,該模型會導致角速度響應的隨機結果,從而引發井眼軌跡控制的一定偏差。

            對基于遷移學習的井眼軌跡自適應跟蹤控制算法進行抗干擾訓練,圖12為算法收斂后的井眼軌跡跟蹤情況。圖13為井眼軌跡水平投影對比圖,圖14為井眼軌跡垂直投影對比圖。

            圖12 干擾約束下的井眼軌跡

            圖13 干擾約束下的井眼軌跡水平投影圖

            圖14 干擾約束下的井眼軌跡垂直投影圖


            為了更加貼近實際工程,本實驗增加了中靶率這一評價指標。在井眼軌跡跟蹤控制算法的訓練過程中,對每100條鉆進軌跡進行中靶率計算。



            圖15 干擾約束下的井眼軌跡最大偏移距離

            圖16 干擾約束下的中靶率


            在不確定干擾的約束下,井眼軌跡跟蹤控制算法在15000步左右逐漸收斂。收斂后的井眼軌跡跟蹤控制算法的井眼軌跡最大偏移距離為3m左右,中靶率約為97%。實驗結果表明,基于遷移學習的井眼軌跡自適應跟蹤控制算法具備良好的抗干擾能力,能夠在干擾約束下完成較高精度的軌跡跟蹤任務,成功引導井眼軌跡到達地層中的靶區。


            3.自適應實驗

            本文在原有的三維模擬鉆進環境中,在部分地質區塊中加入了偏移處理。在鉆進過程中,由于偏移處理,地層形態會隨機發生細微變動,從而模擬目標軌跡與地層實際分布不一致的情況。

            圖17 自適應井眼軌跡


            如圖17所示,實際的井眼軌跡在偏移地質區塊中與目標井眼軌跡產生了一定的偏離,而在非偏移地質區塊中與目標井眼軌跡保持一致。

            為了進一步分析井眼軌跡自適應跟蹤控制算法的優化效果,本實驗采用鉆遇率這一指標進行評估。通過對比目標井眼軌跡與實際鉆進軌跡的鉆遇率,從而驗證井眼軌跡控制算法的自適應能力。



            圖18 鉆遇率對比


            結果表明,基于遷移學習的井眼軌跡自適應跟蹤控制算法有效提高了鉆遇率,相比于目標井眼軌跡,實際井眼軌跡的鉆遇率約提高10%。由此可知,井眼軌跡自適應跟蹤控制算法能夠在鉆進過程中根據測量到的隨鉆數據,進行自適應決策,優化井眼軌跡,提高目標油層的鉆遇率。

            結論:

            本文提出了一種基于強化學習和遷移學習的自適應井眼軌跡跟蹤控制方法?;趦炏润w驗重放機制的DDPG算法可以根據井斜數據實時控制井眼軌跡,完成高精度的井眼軌跡跟蹤任務。此外,遷移學習通過映射技術轉移知識,提高了模型的學習效率和泛化能力。

            該算法在三維模擬鉆井環境中進行了訓練和測試。本文利用隨機生成的地質塊作為鉆井環境,基于不確定性干擾機制。這種方法模擬了不同的鉆井環境,為算法自適應訓練提供了一個高效的平臺。實驗結果表明,所提出的自適應井眼軌跡跟蹤控制方法具有良好的抗干擾能力和自適應能力。通過算法的智能決策能力,可以規劃出適合實際需求的井眼軌跡。該算法的反饋還可以幫助鉆井人員評估情況。本文提出的方法有助于解決實際井眼軌跡跟蹤控制技術面臨的挑戰,為智能井眼軌跡跟蹤控制提供了新的思路。

            作者簡介:

            朱丹丹,博士,智能中心副教授,碩士生導師。目前主要研究方向是強化學習和數據挖掘。聯系方式:zhu.dd@cup.edu.cn

            99亚洲综合精品