中文題目:面向邊緣計算推薦系統的聯邦學習激勵機制設計
論文題目:Incentive Mechanism Design of Federated Learning for Recommendation Systems in MEC
錄用期刊/會議:IEEE Transactions on Consumer Electronics (中科院大類2區,JCR Q2)
原文DOI:10.1109/TCE.2023.3342187
原文鏈接:https://ieeexplore.ieee.org/abstract/document/10356897
錄用/見刊時間:2023-12-13
作者列表:
1)黃霽崴 中國石油大學(北京)信息科學與工程學院/人工智能學院 教授
2)馬博聞 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機科學與技術專業 碩21
3)王 名 中國聯通 工程師
4)Xiaokang Zhou Shiga University Faculty of Data Science Associate Professor
5)Lina Yao CSIRO's Data61 Senior Principal Research Scientist
6)Shoujin Wang University of Technology Sydney Data Science Institute Lecturer
7)齊連永 中國石油大學(華東)計算機科學與技術學院 教授
8)陳 瑩 北京信息科技大學 計算機學院 教授
摘要:
隨著消費電子產品和通信技術的快速發展,網絡邊緣的終端用戶產生了大量數據,現代推薦系統充分利用這些數據來訓練各種人工智模型。然而,傳統的集中式模型訓練必須將所有數據傳輸到云端服務器,存在隱私泄露和資源短缺的問題。因此,移動邊緣計算(MEC)與聯邦學習相結合被認為是解決這些問題的一種有前途的模式。智能設備可以為聯邦學習提供數據和計算資源,并將本地模型參數傳輸到配備邊緣服務器的基站,以聚合成一個全局模型。然而,由于物理資源有限和隱私泄露的風險,用戶并不愿意自愿參與聯邦學習。為解決這一問題,本文利用博弈論提出了一種基于兩階段Stackelberg博弈的激勵機制,以激勵用戶為聯邦學習貢獻計算資源。本文為用戶和基站定義了兩個效用函數,并提出了效用最大化問題。通過理論分析,得到了用戶的納什均衡策略和效用最大化問題的Stackelberg均衡。此外,本文還提出了一種基于博弈的激勵機制算法(GIMA)來實現Stackelberg均衡。最后,本文提供了仿真結果來驗證GIMA算法的性能。實驗結果表明,與其他激勵方法相比,本文提出的算法收斂速度快,能獲得更高的效用值。
背景與動機:
在本文中,為了激勵用戶貢獻更多計算資源以提高聯邦學習模型的性能,本文利用博弈論將基站和用戶之間的聯邦學習培訓建模為一個兩階段的Stackelberg博弈,其中基站是領導者,用戶是追隨者。配備服務器的基站發起聯邦學習任務并支付費用?;靖采w范圍內的用戶通過貢獻計算資源和本地數據樣本參與聯邦學習?;竞陀脩舻哪繕耸亲畲蠡髯缘男в?。本文從理論上分析了效用最大化問題的Stackelberg均衡的存在性,并提出了一種基于博弈的激勵機制算法(GIMA)來解決用戶和基站的效用最大化問題。
主要內容:
本文考慮蜂窩網絡環境下推薦系統的典型聯邦學習場景,如圖1所示。它由一個帶有邊緣服務器的基站和多個用戶組成。每個用戶使用本地原始數據訓練自己的本地推薦模型。然后,只將局部模型的參數上傳到邊緣服務器進行聚合,即可獲得全局模型。最后,聚合的全局模型被發送回用戶設備進行推理和下一次迭代訓練。
圖1 MEC中推薦系統的聯邦學習系統模型
本文定義了基站和用戶的效用函數,隨后提出兩階段Stackelberg博弈框架來捕獲參與聯邦學習的各方之間的復雜互動?;拘枰獩Q定一個適當的激勵方式來吸引用戶參與,以獲得高質量的模型。用戶需要決定他們的參與程度,以最大化他們的效用。因此,優化問題可表示為
隨后證明了納什均衡的存在性以及Stackelberg均衡的存在,并且提出了一種基于博弈的激勵機制算法(GIMA)來實現Stackelberg均衡,算法偽代碼如下所示:
實驗結果及分析:
從圖2可以看出,基站和用戶存在唯一的Stackelberg均衡策略。為了驗證唯一Stackelberg均衡的存在性,在用戶數量和用戶策略固定的情況下,將支付從0變化到50?;镜男в们€呈凸形,曲線最高點為Stackelberg均衡的最佳響應。本文還驗證了用戶間的唯一納什均衡,對于每個用戶根據其他用戶和基站支付的固定策略改變頻率。值得注意的是,每個用戶的效用曲線都是凸的。在這種情況下,用戶可以通過確定計算資源的策略來最大化效用。
圖2 納什均衡及Stackelberg均衡
圖3顯示了基站和用戶的效用變化情,展示了不同用戶數下Random算法、GIMA算法和Fix算法效用。本文提出的的GIMA算法的基站效用是三種算法中最大的。隨著用戶數量的增加,GIMA算法與其他兩種算法之間的效用差距越來越大。此外,GIMA算法的增長速度比線性增長慢。實際上,隨著用戶數量的進一步增加,越來越多的用戶參與到聯邦學習訓練中,基站可以獲得大量的計算資源。但是,為了獲得最大的效用,基站所需的計算資源量會趨于穩定。此外,隨著用戶數量的增加,用戶的平均效用減少。這是因為隨著用戶數量的增加,參與聯邦學習訓練的用戶越來越多,而獎勵的增長速度卻持平。因此,用戶的平均效用變小??梢悦黠@看出,GIMA算法的基站效用是三種算法中最大的,GIMA算法與另外兩種算法的用戶平均效用差距越來越大。
圖3 不同用戶數量下的基站效用及用戶平均效用
結論:
本文研究了一種與聯邦學習合作的MEC系統,用于基站覆蓋范圍內的推薦系統?;居袃敯l布聯邦學習任務,用戶通過貢獻計算資源和本地數據競爭獲利。本文為用戶和基站設計了兩個效用函數,還將效用最大化問題表述為兩階段Stackelberg博弈,并從理論上證明了Stackelberg均衡的存在。然后,本文提出了GIMA算法,以在有限的迭代次數內獲得用戶和基站的均衡策略。通過模擬實驗說明,與其他激勵方法相比,GIMA算法能快速收斂并獲得更高的效用值。在今后的工作中,我們將考慮數據新鮮度的影響,鼓勵用戶提供新鮮數據,以訓練出更精確的模型。我們將進一步考慮數據樣本不足的問題,并研究聯邦學習的自適應激勵機制框架。此外,我們還將從經濟學角度探索各種激勵機制設計方法,如反向拍賣等。
通訊作者簡介:
黃霽崴,教授,博士生導師,中國石油大學(北京)信息科學與工程學院/人工智能學院副院長,石油數據挖掘北京市重點實驗室主任。入選北京市優秀人才、北京市科技新星、北京市國家治理青年人才、昌聚工程青年人才、中國石油大學(北京)優秀青年學者。本科和博士畢業于清華大學計算機科學與技術系,美國佐治亞理工學院聯合培養博士生。研究方向包括:物聯網、服務計算、邊緣智能等。已主持國家自然科學基金、國家重點研發計劃、北京市自然科學基金等科研項目18項;以第一/通訊作者在國內外著名期刊和會議發表學術論文60余篇,其中1篇獲得中國科協優秀論文獎,2篇入選ESI熱點論文,4篇入選ESI高被引論文;出版學術專著1部;獲得國家發明專利6項、軟件著作權4項;獲得中國通信學會科學技術一等獎1項、中國產學研合作創新成果一等獎1項、廣東省計算機學會科學技術二等獎1項。擔任中國計算機學會(CCF)服務計算專委會委員、秘書,CCF和IEEE高級會員,電子學報、Chinese Journal of Electronics、Scientific Programming等期刊編委。