中文題目:面向電量分離任務的同用戶和跨用戶數據增強方法
論文題目:Intra- and Inter-User Data Augmentation Methods for Energy Disaggregation
錄用期刊/會議:International Conference on Advanced Data Mining and Applications(EI國際會議)
原文DOI:https://doi.org/10.1007/978-981-96-0811-9_6
原文鏈接:https://link.springer.com/chapter/10.1007/978-981-96-0811-9_6
錄用/見刊時間:2024-12-13
作者列表:
1)楊世杰 中國石油大學(北京)人工智能學院學院人工智能專業 本科 20
2)姜潔 中國石油大學(北京)人工智能學院學院 智能科學與技術系教師
3)孔秋強 香港中文大學電子工程學院 多媒體與信號處理系教師
背景與動機:
電量分離旨在通過分析用戶的總用電量來推斷各用電設備的能耗,現有的大多數基于深度學習的電量分離方法主要依賴于成對采集的標簽數據和監督學習策略。這通常需要入戶安裝傳感器,以同步采集電器級能耗數據和用戶總能耗數據,但這種方法成本高昂且難以規?;?。為了減少對大規模標簽數據采集的依賴,學者們探索了多種數據增強方法用于電量分離,例如通過隨機混合和拼接擴展現有的標簽數據集,以及使用多智能體模擬家庭能耗行為生成合成數據集等。盡管這些方法已被證明能夠輔助電量分離任務,但尚缺乏系統性的研究來探討標簽數據結合數據增強技術在多大程度上可以提升電量分離模型的性能。為此,本研究從同用戶(intra-user)和跨用戶(inter-user)兩個角度,探索了如何增強訓練數據的多樣性,以進一步降低電量分離模型的分離誤差。
設計與實現:
圖1展示了兩種數據增強方法的框架,該框架通過兩個模塊實現。第一個是用電設備用電周期數據提取模塊,該模塊基于用電設備用電量序列數據,提取用電設備開啟時段的用電量子序列,并根據目標設備和對比設備將提取的用電量子序列分為兩類。第二個是數據合成模塊,首先通過用電設備用電量序列數據識別目標設備未開啟的時間段,隨后將第一個模塊得到的用電量子序列數據與用戶總電量/用電設備用電量序列結合,用于生成新的數據樣本。
圖1 同用戶和跨用戶數據增強方法框架
兩個模塊的算法實現如下:
實驗結果及分析:
表1展示了基于WaveNet和BERT的電量分離模型在原始REFIT數據集及采用不同數據增強方法生成的數據集上所得到的MAE和SAE??傮w而言,使用跨用戶(inter-user)增強數據集訓練的WaveNet模型取得了最佳的MAE表現,而使用同用戶(intra-user)增強數據集訓練的BERT模型則在SAE指標上表現最優。
表1 不同數據增強方法的分離結果
圖2展示了電量分離模型在原始訓練集以及由兩種提出的數據增強方法和基線方法生成的三個增強數據集上的分離結果。模型分別采用WaveNet或BERT,根據哪種模型在MAE或SAE指標上表現最佳而選擇??梢杂^察到,使用同用戶和跨用戶數據增強方法獲得的分離結果在洗碗機、電熱水壺和洗衣機的真實用電量幅值上更接近實際情況。對于微波爐,盡管所提出的方法能夠更準確地定位電器開啟時段,但預測的用電量幅值總體上偏低。
圖2 不同數據增強方法的分離結果
結論:
本文分別從同用戶和跨用戶的角度出發,探討了兩種用于電量分離的數據增強方法。這兩種方法利用同一用戶或不同用戶的用電設備的用電周期數據,通過合成新的訓練樣本來豐富各用戶的訓練數據。此外,考慮到具有相似能耗模式的用電設備的影響,在數據增強過程中引入對比實例?;诠_數據集REFIT的實驗結果表明,采用本文提出的數據增強方法生成的增強數據,能夠顯著提升基于WaveNet和BERT的電量分離模型的性能。
作者簡介:
通訊作者簡介: 姜潔,副研究員,博士,中國石油大學(北京)人工智能學院教師,主要研究領域為傳感器數據挖掘、盲源分離、機器學習。