論文題目:PFPMine: A parallel approach for discovering interacting data entities in data-intensive cloud workflows
錄用時間:2020年7月7日
發表期刊:Future Generation Computer Systems(SCI檢索,JCR:Q1)
作者列表:
(1)黃昱澤,重慶交通大學,信息科學與工程學院,講師
(2)黃霽崴,中國石油大學(北京),信息科學與工程學院,教授
(3)劉 聰,山東理工大學,計算機科學與技術學院,教授
(4)張呈寧,新加坡Grab公司,數據工程師
DOI鏈接:https://doi.org/10.1016/j.future.2020.07.018
為了高效利用資源,需要將工作流部署于云環境之中。由于數據密集型工作流會對大量數據進行操作,本文提出了一種基于頻繁模式的云工作流關聯數據發現和管理方法,并基于MapReduce框架對算法進行并行化以提高效率。解決了在數據密集型工作流中發現關聯數據的問題。通過使用真實數據集來評估該方法的效率,證明了我們的方法與傳統方法相比可以更高效的發現云工作流中的關聯數據。
云計算作為一種新興的計算模式能夠將計算和存儲作為一種服務提供給用戶使用。云計算對資源的高效利用,可以顯著提高工作流的執行效率。隨著云計算的廣泛應用,為了高效利用資源,越來越多的公司或機構將其工作流部署于云環境中,由于數據密集型工作流會對大量數據進行操作,因此在將數據密集型工作流部署于云環境的過程中面臨著許多新的挑戰。
圖1FPMine總體框架
圖1介紹了一種基于頻繁模式的關聯數據發現方法的總體框架,該方法通過對工作流日志進行分析,揭示出數據中的關聯關系,區分出數據間的重要程度。
頻繁模式挖掘算法的基礎是設定合適的支持度閾值。然而目前的頻繁模式挖掘算法大多采用人為設定的方法設定最小支持度閾值,顯然這存在明顯的問題。雖然已經有許多研究學者設計了一些自動化設定最小支持度閾值的方法,但這些方法大多基于監督學習或窮舉法,這將會導致算法的效率較為低下。為了解決這個問題,本文提出了一種自動化設定最小支持度閾值的方法,該方法基于數據項的統計分布特征,且不需要訓練數據。設定最小支持度閾值的詳細步驟如算法1所述。
頻繁模式挖掘算法的基本思想是通過遍歷FP樹來查找頻繁項集。為了提高算法的執行效率,本文重新設計了該算法用于查找頻繁二項集,設計了一種新的數據結構,命名為FP矩陣。FP矩陣存儲了每對數據項的頻度信息及興趣度度量值。算法2為FP樹及FP矩陣構造算法。FP樹及FP矩陣如圖2(b)和(c)所示。
圖2 FP樹及FP矩陣
構建了FP樹和FP矩陣,下面將直接挖掘具有區分力的頻繁項集。與傳統的頻繁模式挖掘算法不同,本文提出一種直接挖掘具有區分力的頻繁二項集的算法,關注于挖掘頻繁二項集,而非頻繁模式,這將消耗更少的時間和資源。詳細的頻繁二項集挖掘算法如算法5所示。
為了應對大規模數據集,本章提出了一種基于頻繁模式的并行化挖掘算法,并將其命名為PFPMine。該算法使用MapReduce框架將前面章節中提出的FPMine算法做并行化處理。圖3為相應的PFPMine總體框架圖。
圖3 PFPMine總體框架圖
本文采用真實數據集對PFPMine算法進行功能性評估。圖4(a)和圖4(b)為采用PFPMine和FP-growth對三個不同的數據集進行挖掘,并采用上述兩種不同的時延計算通信代價。結果表明采用PFPMine算法的通信代價明顯低于采用傳統的FP-growth算法所計算出的通信代價。
圖4通信代價
黃霽崴博士,教授,博士生導師,石油數據挖掘北京市重點實驗室主任,中國石油大學(北京)計算機科學與技術系主任。2015年度北京市優秀人才,2018年度中國石油大學(北京)優秀青年學者,2020年度北京市科技新星。分別在2009年和2014年于清華大學計算機科學與技術系獲得工學學士和工學博士學位,2012-2013年國家公派赴美國佐治亞理工學院聯合培養。研究方向包括:系統性能評價和優化、隨機模型理論和應用、服務質量測量與保障技術、服務計算和物聯網等。擔任中國計算機學會(CCF)服務計算專委會委員,CCF高級會員,IEEE、ACM會員。已主持國家自然科學基金、北京市自然科學基金等科研項目13項,在國內外著名期刊和會議發表論文五十余篇,出版學術專著1部,獲得國家發明專利5項、軟件著作權3項,擔任多個國際頂級期刊和知名會議審稿人。聯系郵箱:huangjw@cup.edu.cn。
99亚洲综合精品