中文題目:別再使用黑箱模型--可解釋人工智能在鉆速預測的應用
論文題目: Stop Using Black-box Models: Application of Explainable Artificial Intelligence for Rate of Penetration Prediction
錄用期刊/會議:SPE Journal (中科院大類3區)
原文DOI:https://doi.org/10.2118/223622-PA
原文鏈接:https://onepetro.org/SJ/article-abstract/doi/10.2118/223622-PA/580238/Stop-Using-Black-Box-Models-Application-of?redirectedFrom=fulltext
錄用/見刊時間:October 23 2024
作者列表:
1)孟 翰 中國石油大學(北京)人工智能學院 智能科學與技術系教師
2)林伯韜 中國石油大學(北京)人工智能學院 智能科學與技術系教師
3)金 衍 中國石油大學(北京)石油工程學院 油氣井工程系教師
文章簡介:
機械鉆速預測對提高鉆井效率、降低鉆井成本至關重要?,F有人工智能模型雖然在預測精度上表現出色,但其黑盒特性限制了實際應用。本文引入了一種基于神經網絡的可解釋鉆速預測模型,不僅保持了高預測精度,還能清晰展示鉆井參數對預測結果的影響機制,旨在促進可解釋人工智能在油氣領域的應用。
摘要:
準確預測鉆速對提高鉆井效率和降低鉆井成本至關重要。目前的人工智能模型雖然能夠準確預測鉆速,但其黑箱模型的本質,導致其決策過程難以理解,在實際應用中受到限制。本研究引入的可解釋神經網絡模型不僅能準確預測鉆速,還能清晰展示各項鉆井參數是如何影響預測結果的。通過公開數據集的對比實驗,該模型展現出優異的預測性能,不僅預測精度高,并且能夠提供清晰的決策依據。
背景與動機:
機械鉆速的預測直接關系到鉆井效率優化和總體成本控制。目前ROP預測模型主要分為三類:物理模型、數據驅動模型和混合模型。物理模型雖然具有良好的解釋性,但由于其建立在實驗室條件下,難以準確刻畫實際鉆井過程中的復雜非線性關系。數據驅動模型特別是深度學習模型雖然預測精度較高,但其黑盒特性阻礙了在高風險的石油工業中的實際應用?;旌夏P驮噲D結合兩者優勢,但其假設的物理規律在不同地層條件下的普適性存疑,且其數據驅動部分仍存在解釋性問題。因此,開發一種既能保持數據驅動模型靈活性又具備清晰解釋能力的ROP預測模型具有重要意義。本研究提出將可解釋人工智能引入ROP預測中,旨在打開石油工程領域AI應用的新途徑。
設計與實現:
方法設計:
1. 模型架構設計:本文采用基于廣義加性模型的NBM(Neural Basis Model),其核心創新在于通過共享神經網絡學習基函數。模型結構主要包含三個關鍵組件:
l基函數學習網絡:采用共享神經網絡處理輸入特征,學習一組基函數來捕捉特征間的關聯性
l特征映射層:通過特定權重組合基函數,構建每個輸入特征的貢獻函數
l線性組合層:將各特征貢獻進行線性組合得到最終預測結果
圖1 NBM 網絡結構
主要創新點包括如下三點:
l共享網絡設計提高了對特征間相關性的捕捉能力
l基函數的學習機制提供了穩定的模型解釋性
l并行訓練架構顯著提升了計算效率
數據集合與預處理方法:
數據集描述:
本研究基于Tunkiel等人處理和清洗的挪威Volve油田的公開鉆井數據集,一共有7口井數據。共包含198,928個數據點,每個數據點包含12個特征:測量深度(MD)、鉆壓(WoB)、立管壓力(ASP)、地面扭矩(AST)、轉速(ARS)、泥漿流量(MFI)、泥漿密度(MDI)、鉆頭直徑(D)、平均吊重(AH)、井深(HD)、伽馬值(Gamma)和機械鉆速(ROP)。
圖2 數據集特征分布和相關性分析
數據集劃分:
本研究設計了連續學習和全井預測兩種訓練場景,以模擬實際鉆井作業中的不同應用需求。
連續學習:旨在模擬單井鉆進過程中的實時優化,初始使用前90米數據(前30米訓練,中間30米驗證,最后30米測試)建立基礎模型,并隨著鉆井深度每增加30米(約一個鉆桿長度)就更新一次模型,這種設計特別適用于指導同一口井后續井段的鉆進參數優化。
全井預測:則模擬利用已鉆井的經驗來指導新井鉆進的情況,從7口井中選擇1口作為測試井,1口作為驗證井,其余井的數據用于訓練,采用滾動選擇方法確定驗證井和測試井,這種設計適用于油田開發后期利用已積累的鉆井經驗指導新井的鉆進策略。
圖3 (a)連續學習 和(b)全井預測的數據集劃分
可解釋ROP預測:
可解釋模型的一個重要優勢在于其能夠為預測結果提供清晰的解釋,這種解釋能力體現在對預測結果的可視化上。圖4展示了使用Well-1鉆井數據訓練的模型結果。圖中紅線表示每個輸入特征所對應的學習函數。藍點代表一個具體輸入樣本的參數:測量深度1187.98米,鉆壓13.42 kkgf,立管壓力10967.83 kPa,地面扭矩9.56 KN.m,轉速194.19 rpm,泥漿流量1927.46 L/min,泥漿密度1.20 g/cm3,鉆頭直徑215.90 mm,吊重86.43 kkgf,伽馬值25.37 gAPI。圖中標注了各學習子函數與其對應系數相乘后的值。模型對該輸入的最終預測值由這些值的相加得出得出,具體為41.285 m/h(包含學習到的常數項f?=0.245)。
圖4 模型預測可視化
關于連續學習和全井段預測的討論
研究結果表明,NBM模型在連續學習場景下的預測性能顯著優于全井預測場景,這個現象值得深入探討。這種性能差異主要反映了數據驅動模型在知識遷移方面的局限性。在連續學習場景中,由于是在同一口井的數據上進行訓練和預測,模型能夠有效捕捉到該井特定的鉆井參數與機械鉆速之間的關系模式。這些關系模式在同一口井的不同深度區間表現出較好的一致性,這與地層的連續性特征相符。然而,當模型應用于多井情況下的全井預測場景時,雖然鉆井操作參數(如鉆壓、轉速等)的數值范圍可能相似,但可能是因為由于缺乏詳細的地層特征信息,模型難以準確理解不同井之間的地質差異對機械鉆速的影響,學習到的知識完全不同。這也說明了當前模型學習到的更多是數據集特定的解釋(dataset-specific explanations),而非可遷移知識(transferable knowledge)。這一認識對未來研究具有重要指導意義:要提高模型在不同井之間的預測能力,需要補充更多地層特征信息,以幫助模型建立起更本質的物理關聯,而不是僅僅停留在表面的數據相關性層面。
圖5 (a)well-1 和(b)well-2 井上的數據訓練得到的模型的可視化解釋
結論:
本研究采用了自解釋神經網絡模型構建機械鉆速預測。通過與已有方法的對比實驗表明,采用的模型不僅達到了與黑箱模型相當的預測精度,更重要的是具備了清晰的可解釋性,能夠增強用戶對預測結果的信任度并提供更深層的洞察。本研究的更廣泛意義在于為石油工程領域引入可解釋AI模型提供了示范。
代碼:
本研究的部分代碼可從https://github.com/IPE-lab/NBMROP獲取。
作者簡介:
孟翰,中國石油大學(北京)人工智能學院副教授。本科和碩士畢業于中國石油大學(北京),分別獲得石油工程和油氣井工程學位,于英國諾丁漢大學獲得計算機科學博士學位。2024年加入中國石油大學(北京)人工智能學院。研究方向包括可解釋人工智能、生成式模型、時間序列分析等。
通訊作者簡介:
林伯韜,人工智能學院教授,博士生導師,長期致力于智能石油工程與工業數字孿生等領域的教學和科研工作。
金衍,石油工程學院教授,博士生導師,長期致力于巖石力學、智能油田、井壁穩定和水力壓裂等油氣井工程領域方面的教學和科研工作,國家杰出青年科學基金獲得者。