中文題目:通過深度強化學習設計聯邦學習的安全服務契約激勵機制
論文題目:Secure Service-Oriented Contract Based Incentive Mechanism Design in Federated Learning via Deep Reinforcement Learning
錄用期刊/會議:IEEE 2024 International Conference on Web Services (ICWS) (CCF B)
錄用時間:2024年5月14日
作者列表:
1) 馬博聞 中國石油大學(北京) 信息科學與工程學院/人工智能學院 計算機科學與技術專業 碩21
2) 馮子涵 中國石油大學(北京) 信息科學與工程學院/人工智能學院 計算機科學與技術專業 碩22
3) 高煜洲 中國石油大學(北京) 信息科學與工程學院/人工智能學院 計算機科學與技術專業 本20
4) 陳 瑩 北京信息科技大學 計算機學院 教授
5) 黃霽崴 中國石油大學(北京) 信息科學與工程學院/人工智能學院 教授
摘要:
在聯邦學習中,確保本地模型所有者的積極參與,同時保護數據隱私和服務安全是一項艱巨的挑戰。我們的研究集中于兩種不同的信息場景:弱不完全信息場景和強不完全信息場景,它們對聯邦學習系統的完整性和效率提出了獨特的挑戰。在弱不完全信息場景中,我們需要解決本地模型所有者可能隱瞞其真實類型的問題。為此,我們使用契約理論及其自我揭示特性,確保本地模型所有者如實報告其類型。在強不完全信息場景中,我們認識到本地模型所有者的動態性質及其隱私需求。我們提出了基于契約的深度強化學習(Contract-based Deep Reinforcement Learning, CDRL)算法,該算法結合了契約理論的戰略框架和深度強化學習的自適應能力。CDRL算法旨在動態環境中進行實時契約設計,使系統能夠有效應對聯邦學習的參與,確保激勵措施與系統安全和學習目標保持一致。通過在真實世界數據集上的廣泛實驗,我們提出的機制在激勵本地模型擁有者積極參與聯邦學習方面表現出色,從而顯著提高了系統性能。
背景與動機:
為了充分發揮聯邦學習模型的價值,我們需要建立合理的激勵機制,以確保系統參與者能夠自愿、無私地完成高質量的數據計算工作。這一激勵機制應能夠量化不同任務的工作量,并匹配相應的獎勵,從而實現本地模型擁有者和任務發布者的利益最大化。由于本地模型擁有者通常不會向公眾披露其具體信息,因此實際應用場景多為信息不對稱。然而,在現有研究中,激勵機制都是在本地模型擁有者分布已知、本地模型擁有者數量不變的假設下,利用凸優化理論和契約理論進行優化設計的。此外,在本地模型擁有者分布未知且數量動態變化的情況下,激勵機制的設計基本沒有研究。
主要內容:
在這個框架中,我們有一個任務發布者,他將召集一些具有計算能力的本地模型擁有者來完成模型訓練。具體來說,本地模型擁有者會根據其參與意愿,使其模型訓練在數量和質量上有所不同。因此,我們根據參與意愿的不同對所有本地模型擁有者進行分類。在不失一般性的前提下,意愿越高,表明本地模型擁有者可以提供更高質量或更多的數據,為任務做出更大貢獻,系統模型如如圖 1 所示。
圖1 系統模型
為了激勵本地模型擁有者自愿無私地完成一定數量的任務,任務發布者需要設計合理有效的激勵機制。本地模型擁有者有動機隱藏自己的類型,假裝成其他類型的本地模型擁有者,以獲取更高的回報。此外,由于本地模型擁有者的意愿作為單個本地模型擁有者的私有數據沒有公開,因此任務發布者無法明確知道每個本地模型擁有者的具體類型。本地模型擁有者是自私而理性的,他們會在任務發布者提供的契約中選擇自身利益最大化的契約。任務發布者的效用由兩部分組成,即從模型訓練中獲得的收益和支付給本地模型擁有者的成本;本模型擁有者的效用由兩部分組成,即從任務發布者的獎勵和其模訓練成本。定義為
在弱不完全信息情景中,本地模型擁有者的類型屬于私人信息,任務發布者不知道具體的本地模型擁有者的類型。為了防止本地模型擁有者為了獲得更高的效用而想隱瞞自己的類型,我們利用契約理論來解決這個激勵不對稱問題。通過契約理論,我們可以將原始優化問題簡化為以下形式:
利用凸優化工具,我們可以輕松得出最優契約設計問題的最優解,而無需考慮單調性條件的約束。當本地模型擁有者的概率分布是均勻分布時,解自然滿足單調性約束條件。否則,解有可能不滿足單調性約束。我們需要進一步檢查解的單調性約束,使用“Bunching and Ironing”調整算法來解決不可行子序列問題。
然而,在現實中,本地模型擁有者的數量和分布可能是動態的。本地模型擁有者的位置并不固定,可能會跨區域移動。此外,本地模型擁有者也可能遇到不可預見的故障和其他不可預測的事件。鑒于本地模型擁有者的動態性質和隱私問題,我們建立了一個馬爾可夫決策過程(MDP)模型,并提出了一種深度強化學習算法CDRL,以應對強不完全信息場景的挑戰。
實驗結果及分析:
我們設計了大量模擬實驗,以評估弱不完全信息情景下契約設計的最優性,以及強不完全信息情景下CDRL的性能。我們利用真實世界的數據Chicago Taxi Trips-2021進行實驗。通過使用K-means算法進行區域劃分,劃分結果如圖2所示。
圖2 Chicago Taxi Trips – 2021
圖3顯示了本地模型擁有者在選擇任務發布者設計的不同契約條目時的效用。
圖3 本地模型擁有者的效用
圖4展示了四種 DRL 算法的收斂性和性能。
圖4 隨著訓練回合數變化對性能的影響
(a) 任務1. (b) 任務2. (c) 任務3
結論:
在聯邦學習場景中,我們解決了如何在確保本地模型擁有者積極參與的同時維護隱私和安全的難題。我們探討了弱不完全信息和強不完全信息的場景,在前者中引入了契約理論等解決方案,在后者中引入了用于動態自適應的CDRL算法。我們的方法經過真實世界數據的驗證,顯著提高了本地模型擁有者的參與度和系統性能,展示了將博弈框架深度強化學習算法相結合以改進聯邦學習系統的潛力。在今后的研究中,我們將改進本地模型擁有者的分類,以詳細了解他們在聯邦學習中的不同特點和作用。此外,我們還將探索使用包含離散和連續混合行動空間的深度強化學習算法,以改進激勵機制的設計和靈活性。
通訊作者簡介:
黃霽崴,教授,博士生導師,中國石油大學(北京)信息科學與工程學院/人工智能學院副院長,石油數據挖掘北京市重點實驗室主任。入選北京市優秀人才、北京市科技新星、北京市國家治理青年人才、昌聚工程青年人才、中國石油大學(北京)優秀青年學者。本科和博士畢業于清華大學計算機科學與技術系,美國佐治亞理工學院聯合培養博士生。研究方向包括:物聯網、服務計算、邊緣智能等。已主持國家自然科學基金、國家重點研發計劃、北京市自然科學基金等科研項目18項;以第一/通訊作者在國內外著名期刊和會議發表學術論文60余篇,其中1篇獲得中國科協優秀論文獎,2篇入選ESI熱點論文,4篇入選ESI高被引論文;出版學術專著1部;獲得國家發明專利6項、軟件著作權4項;獲得中國通信學會科學技術一等獎1項、中國產學研合作創新成果一等獎1項、廣東省計算機學會科學技術二等獎1項。擔任中國計算機學會(CCF)服務計算專委會委員,CCF和IEEE高級會員,電子學報、Chinese Journal of Electronics、Scientific Programming等期刊編委。
聯系方式:huangjw@cup.edu.cn