<meter id="hh1nh"></meter>
<th id="hh1nh"><em id="hh1nh"><delect id="hh1nh"></delect></em></th>

        <form id="hh1nh"></form>

          <listing id="hh1nh"><nobr id="hh1nh"></nobr></listing>
          <nobr id="hh1nh"></nobr>

            <th id="hh1nh"><form id="hh1nh"><font id="hh1nh"></font></form></th>
            <rp id="hh1nh"><progress id="hh1nh"></progress></rp>
            您所在的位置:首頁 - 科學研究 - 科研動態

            科研動態

            極有限故障樣本下利用改進的條件GAN進行數據增強及其在電潛泵故障診斷中的應用

            中文題目:極有限故障樣本下利用改進的條件GAN進行數據增強及其在電潛泵故障診斷中的應用

            論文題目Data augmentation using improved conditional GAN under extremely limited fault samples and its application in fault diagnosis of electric submersible pump

            錄用期刊/會議Journal of the Franklin Institute (JCR Q1; CAA A類期刊)

            原文DOI https://doi.org/10.1016/j.jfranklin.2024.01.030

            原文鏈接:https://www.sciencedirect.com/science/article/pii/S0016003224000401

            錄用/見刊時間:20240117

            作者列表

            1) 高小永 中國石油大學(北京)信息科學與工程學院/人工智能學院 自動化系 教師

            2) 張   譽 中國石油大學(北京)信息科學與工程學院/人工智能學院 控制科學與工程 碩20;School of Chemistry and Chemical Engineering, University of Surrey, Guildford GU2 7XH, UK

            3) 付   軍 中海油能源發展股份有限公司 天津

            4) 李   爽 中國石油大學(北京)信息科學與工程學院/人工智能學院 控制科學與工程 碩22

            文章簡介:

            本研究提出一種智能虛擬樣本生成法,用于海上油田電潛泵故障診斷。通過條件生成對抗網絡和多分布趨勢擴散技術,有效克服數據量大但信息量小的挑戰,生成高質量虛擬樣本。這種方法顯著提高了分類模型的準確性,并通過實際應用驗證了其效果,展現出優于傳統方法的性能。

            摘要:

            海上油田的電潛泵(ESP)是實現高產穩產的重要人工舉升方法之一。由于 ESP 系統的復雜性和較長的泵送周期,其數據具有典型的 "數據量大、信息量小 "的特點。因此,有效樣本的稀缺給 ESP 故障診斷帶來了巨大挑戰。針對這些實際問題,我們提出了一種智能虛擬樣本生成方法,將多分布整體趨勢擴散(MD-MTD)的思想引入條件生成對抗網絡(MCGAN-VSG)。在 MCGAN-VSG 方法中,首先利用 MD-MTD 中構建的三角概率分布模型對樣本進行估計,從而獲得樣本屬性的可接受擴散范圍。其次,加入Borderline-SMOTE 和均勻分布來描述小樣本屬性,并生成合適的輸出樣本來填補樣本間的信息差距,以便使用 Bootstrap 重新采樣。第三,使用 CGAN 生成與輸出樣本相對應的輸入樣本。最后,用極其有限的故障樣本生成大量虛擬樣本,從而提高分類模型的準確性。為了驗證所提出的 MCGAN-VSG 的優勢,我們通過二維標準函數對通過該方法生成的輸入和輸出虛擬樣本的質量進行了研究。提出的方法被進一步應用于海洋油田靜電除塵器的故障診斷,并通過實際工業數據驗證了 MCGAN-VSG 的有效性。MCGAN-VSG MTD、TTD、Bootstrap MD-MTD 等最先進的方法進行了比較,實驗結果表明所提出的方法優于所有其他方法。

            背景與動機:

            海上油田的電潛泵(ESP)是關鍵的人工舉升技術之一,但由于其系統復雜性及長周期泵送特點,面臨數據量大但信息量小的挑戰,使得有效樣本稀缺,進而給ESP故障診斷帶來困難。因應這一問題,研究提出了一種智能虛擬樣本生成方法,旨在通過創新技術提高故障診斷的準確性和效率。

            設計與實現:

            首先,將 MCGAN-VSG 方法與 MD-MTD 方法的思想相結合,計算原始樣本的擴散范圍。然后,利用三角隸屬函數建立三角概率分布(TPD)模型。為了描述小樣本的特征,還加入了邊界線-SMOTE 和均勻分布。然后生成虛擬樣本。此外,使用 Bootstrap TPD 模型中的數據進行重新采樣,以獲得新樣本的輸出。最后,使用改進的 CGAN 生成新樣本的輸入。

            MTD 方法是一種信息擴散技術。MTD 的作用是填補原始樣本信息之間的空白。它利用隸屬函數計算虛擬樣本區間的左右邊界,并在這些邊界內生成虛擬樣本。另一方面,MD-MTD 是一種基于 MTD 的改進算法。它引入了均勻分布來生成虛擬樣本,避免了樣本在擴散區域的不平衡現象。



            1 三角概率分布模型


            TPD 模型的擴散區域,數據分布未知,因此使用均勻分布生成虛擬樣本點,如圖 1中藍色星形點所示。在觀測區域,由于原始樣本分布未知,因此使用邊界線-SMOTE 算法生成虛擬樣本,并在此間隙中不重疊。因此,在直接觀測區域生成的虛擬樣本可以填補離散樣本觀測點的信息空白,從而解決原始樣本不平衡的問題。擴散區域的樣本點也會被添加額外的信息,邊界線-SMOTE 的原理如下圖 2 所示。



            2 Borderline-SMOTE


            本文充分利用了 MD-MTD 的優勢,既大大降低了計算成本,又能更好地呈現原始樣本的概率。在 MD-MTD 所構建的 TPD 模型的抽樣過程中應用 Bootstrap 方法,可以大大提高虛擬樣本生成的效率。

            Bootstrap 方法的具體抽樣過程如下:

            Step 1:使用重抽樣技術在總體中隨機抽取一個樣本,記錄樣本值,然后放回原始數據樣本中。

            Step 2:重復Step 1,進行 n 次抽樣,從中獲得自助樣本并計算統計參數。

            Step 3:重復Step 1 Step 2 進行子采樣,得到 m 個自助樣本。

            Step 4:利用 m 個自助樣本的統計參數計算總體統計參數。


            在工業領域,海量數據集具有非線性、高維度和未知分布等特點。生成式對抗網絡通過不斷訓練生成新樣本,從而獲得數據集的分布。然而,生成式對抗網絡生成的樣本具有隨機性,因此控制模型虛擬樣本的生成對于故障診斷極為重要。因此,我們將條件生成式對抗網絡(CGAN)作為基礎模型。

            具體來說,與 GAN 類似,CGAN 也由兩個相互競爭的神經網絡組成,分別為生成器(G)和判別器(D)。在本研究中,通過在 G 中添加約束 Y 和噪聲 Z,生成一個滿足訓練條件的新虛擬樣本 X。此外,D 將條件 Y 和新生成的 X 作為輸入,然后 D 區分樣本 X 屬于真實樣本還是虛假樣本,而 X 是否生成取決于條件 Y。目標函數如下式所示:

            image004.png

            MCGAN-VSG 方法的具體實施過程如下:

            a. 通過 MD-MTD 建立 TPD 模型,以獲得原始數據集的擴散范圍。

            b. 對于擴散區域和觀測區域,分別添加均勻分布和邊界線-SMOTE 對其進行描述。然后,通過 Bootstrap 方法對全局范圍進行重采樣,得到新樣本的輸出。

            c. 以噪聲 z 和條件 y 作為輸入對 CGAN 模型進行訓練,以獲得輸出 x 和給定條件 y 下的分布。

            d. 獲得訓練有素的 CGAN 模型后,將樣本輸入該模型,最終生成虛擬樣本.

            實驗結果及分析:

            為了驗證我們提出的算法的有效性,我們將通過二維標準函數來驗證 MCGAN-VSG 方法的優越性。此外,MCGAN-VSG 還將在實際工業流程(ESP 系統)中得到很好的應用。

            Case 1:

            二維標準函數的定義為:

            image005.png

            虛擬樣本生成的具體步驟如下:

            1) 數據集的獲取。首先,我們從二維標準函數中隨機選取 500 個數據點作為實驗的原始數據集。然后,從原始數據中提取 400 個原始樣本點作為訓練數據集。

            2) 輸出新樣本。利用 TPD 模型對原始數據進行擴散,以獲得更大的數據擴展區間。然后,在觀測區域和擴散區域分別添加邊界線-SMOTE 和均勻分布描述。最后,通過 Bootstrap 對全局數據區間進行重采樣,得到輸出結果。

            3) CGAN 模型構建。輸入訓練數據來訓練 CGAN 模型,超參數的選擇見表 1。圖 5 比較了真實數據(藍色表面)和生成數據(黃色表面)的核概率估計值,真實密度和生成密度非常接近。根據公式 (10) (11),可以得到真實分布和生成分布之間的距離,如圖 6 所示。從圖中可以看出,隨著迭代次數的增加,KL JS 逐漸減小。當迭代次數達到約 650 次時,模型已經收斂。因此,可以評價 CGAN 模型能夠生成較好的虛擬數據。

            4) 將步驟 2) 中的輸出導入訓練有素的 CGAN 模型,以獲得虛擬樣本。模型生成的虛擬樣本和原始樣本如下所示。從圖中可以看出,原始樣本中的一些信息空白被我們的虛擬樣本所填補,很好地保持了信息的完整性。





            Case 2:

            以某海上油氣田電潛泵運行工況的真實數據為實驗樣本集。電潛泵是一種將電動機連同泵對油一起投入油井的井下舉升設備。作為油田實現高產穩產的重要人工舉升方式之一,靜電除塵器的優點是設備配置簡單,安裝面積小,適合海上平臺使用。由于海上電泵井的檢泵周期較長,長時間運行可能導致氣鎖、砂堵、供液不足等因素的影響,以及管柱漏油、斷軸、電纜擊穿等故障。有必要對靜電除塵器的工作條件進行診斷。一般來說,正常樣本和故障樣本的數量極不對稱會導致數據不平衡。以圖 8 所示的靜電除塵器軸斷裂故障數據集為例,可以看出有效故障樣本極度缺乏,數據之間存在許多間隙。少量的故障樣本給故障分類帶來了很大的困難,對預測精度也有極大的影響。因此,本文提出了一種虛擬樣本生成技術 MCGAN-VSG,用于解決 ESP 系統中故障樣本極其有限的數據問題。

            圖片.png

            Accuracy、F-measure G-mean 被用作分類模型的衡量標準。上表總結了使用原始樣本和不同虛擬樣本生成方法的分類模型的結果。從表可以看出,在基礎 ELM 模型中加入 MCGAN-VSG 方法生成的虛擬樣本后,分類準確率可達 73.98%,F-measure 60.96%,G-mean 61.32%。在沒有添加虛擬樣本的情況下,原始訓練集測試的準確率為 50.91%,與提出的 MCGAN-VSG 方法相比,準確率提高了 23.07%,F-measure G-mean 也有所提高。與其他五種先進的 VSG 方法相比,在極其有限的 ESP 數據集上,沒有一種方法的表現能與 MCGAN-VSG 相提并論。下圖給出了不包含虛擬樣本的分類模型和不同 VSG 方法擴展數據集的混淆矩陣。由此可見,與其他 VSG 方法的擴展數據集分類模型相比,MCGAN-VSG 方法的擴展數據集下訓練的分類模型表現更好,可以獲得更高的準確率。

            圖片.png

            圖片.png

            所提出的 MCGAN-VSG 可以很好地解決小樣本問題,填補原始樣本之間的信息空白,并能有效提高極有限的 ESP 故障樣本的性能。

            結論:

            本研究提出了一種結合 MD-MTD 和條件生成對抗網絡(MCGAN-VSG)的智能虛擬樣本生成方法,以實現在 ESP 故障樣本極其有限的情況下的數據增強。在 MCGAN-VSG 中,首先通過 MD-MTD 擴散原始樣本范圍,以獲得更寬的數值范圍。然后,分別使用邊界線-SMOTE 和均勻分布來描述觀測區域和擴散區域,以填補原始信息的空白,再通過 Bootstrap 對輸出樣本進行重新采樣。CGAN 之后是虛擬樣本的生成。最后,利用生成的虛擬樣本進行故障分類,從而在樣本極其有限的情況下提高分類的準確性。通過使用二維標準函數,驗證了所提方法的優勢。在真實數據集的實驗中,通過準確率、F-measure G-mean 指標驗證了所提出的 MCGAN-VSG 的有效性。與不包含虛擬樣本的原始訓練集相比,MCGAN-VSG 提高了 23.07%,并與 TTD、MTD、Bootstrap MD-MTD 方法進行了比較,驗證了 MCGAN-VSG 的優越性。此外,我們還研究了增加虛擬樣本量大小對模型準確性的影響,結果表明,在原始樣本的基礎上增加 500 個虛擬樣本時,模型性能趨于穩定。

            在未來的研究中,我們將探索在準確率保持穩定的條件下虛擬樣本生成的擴散范圍極限,并將其應用于實際工業過程。

            通訊作者簡介:

            高小永,信息科學與工程學院/人工智能學院副院長,博士生導師,石大學者,校青年拔尖人才,自動化專業及控制科學與工程學科建設負責人,擔任北京自動化學會常務理事、中國自動化學會過程控制專業委員會委員、中國自動化學會教育工作委員會委員、中國化工學會信息技術應用專業委員會副秘書長、中國系統工程學會過程系統工程專業委員會委員等。研究領域為復雜石油石化工業過程智能制造,主要方向有:機理與數據驅動的故障診斷、復雜工業過程建模與優化控制、工業過程計劃與調度優化等。主持國家自然科學基金項目2項、北京市自然科學基金面上項目1項、校企聯合項目20多項,發表SCI/EI等各類論文50多篇。

            Emailx.gao@cup.edu.cn

            99亚洲综合精品