中文題目:基于聯邦深度強化學習的無人機輔助車聯網聯合數據緩存和計算卸載方法
論文題目:Joint Data Caching and Computation Offloading in UAV-assisted Internet of Vehicles via Federated Deep Reinforcement Learning
錄用期刊/會議:IEEE Transactions on Vehicular Technology (中科院大類二區、TOP)
原文DOI:10.1109/TVT.2024.3429507
錄用/見刊時間:2024年7月18日
作者列表:
1)黃霽崴 中國石油大學(北京)人工智能學院 教授
2)張 曼 中國石油大學(北京)人工智能學院 計算機科學與技術專業 碩22
3)萬江源 中國石油大學(北京)人工智能學院 計算機科學與技術專業 碩20
4)陳 瑩 北京信息科技大學 計算機學院 教授
5)張 寧 University of Windsor Professor
摘要:
隨著移動邊緣計算(MEC)技術在車輛互聯網(IoV)中的日益普及,部署在宏基站(MBSes)等靜態位置的邊緣服務器可以為其覆蓋區域內的車輛提供計算和緩存服務,有效地減少了任務處理延遲。然而,由于MBSes周圍的建筑密集和特定區域(如熱點請求,交通交叉口),IoV的服務質量(QoS)保證是一項具有挑戰性的任務。為了解決這些挑戰,無人機(UAV)可以通過利用其移動靈活性、低價格和視線(LoS)通信鏈路的優勢,集成到IoV的MEC中。在本文中,我們建立了一個聯合無人機輔助的IoV場景,其中無人機和MBSes都可以為智能車輛提供計算和數據緩存服務。然后,我們提出了一個動態數據緩存和計算卸載的聯合優化問題,旨在最小化平均任務處理延遲和最大化無人機緩存命中率。通過應用深度強化學習(DRL)技術,我們設計了一種智能數據緩存和計算卸載(IDCCO)算法來處理大規模和連續的狀態和動作空間。此外,為了在保護DRL模型訓練的同時保護原始用戶數據的收斂速度,我們提出了一種基于聯邦學習(FL)的分布式訓練機制,其中DRL模型在無人機上進行局部訓練,在MBS上進行全局參數聚合。最后,進行了大量的實驗,實驗結果表明,該方法在縮短訓練時間、減少任務處理延遲、最大化緩存命中率方面優于幾種比較算法。
背景與動機:
對于數據密集型的任務,現有的數據緩存算法可以分為傳統方法和基于學習的方法。然而,由于IoV中的各種屬性都是動態的,傳統的策略難以適應動態環境。同時,大多數采用集中學習的算法會導致以下問題。隨著用戶數量的增加,數據傳輸和模型訓練將消耗過多的通信和計算資源。此外,訓練數據的增加也使得集中式學習模型的訓練越來越困難。最后,用戶數據的傳輸引發了人們對潛在的個人隱私泄露的擔憂。因此,在保護IoV用戶隱私的同時,設計一種在動態場景中獲得高效、低成本的最優全局數據緩存策略至關重要。
主要內容:
圖1 無人機輔助IoV網絡架構圖
如圖1所示,本文考慮了一個由MBS、無人機和車輛組成的車聯網邊緣計算場景。在道路上的車輛產生異構的數據密集型任務,無人機和MBS都可以為車輛提供數據緩存和計算卸載服務。針對IoV的動態性,本文考慮了ES可用的時變計算資源、車輛移動性和區域流行的數據動態。我們提出了一個數據緩存和計算卸載的聯合優化問題,目的是最小化任務平均處理延遲和最大化無人機緩存命中率。優化問題表示為:
為了解決大規模的動態場景問題,我們設計了一種基于DRL的算法,可以有效地解決由此引起的馬爾可夫決策過程(MDP)空間爆炸問題??紤]到用戶隱私性的重要性和加快模型訓練收斂性的必要性,本文引入一種基于聯邦學習(FL)的分布式訓練機制,如圖2所示。
圖2 基于FL的模型訓練過程
DRL代理可以以分布式方式進行訓練,每個代理都可以在本地維護其數據,而無需向互聯網上的MBS透露任何用戶私有信息。具體的算法偽代碼如下:
實驗結果及分析:
實驗結果表明,與幾種基線算法相比,本文提出的Fed-IDCCO算法能夠有效地降低動態網絡場景下的平均任務處理延遲,最大化無人機緩存命中率,同時與集中式算法相比,加快了DRL模型的收斂速度。
圖3 Fed-IDCCO和集中式IDCCO之間的損失函數
圖4 不同的緩存容量下的緩存命中率和時延
圖5 不同的內容數下的緩存命中率和時延
圖6 不同無人機和MBS計算資源下的平均時延
結論:
在本文中,我們考慮了一個UAV-MBS輔助的IoV移動邊緣計算場景。我們研究了聯合數據緩存和計算卸載的問題以最小化任務平均處理延遲和最大化無人機緩存命中率。我們設計了一種基于DRL和FL的分布式智能算法,從而獲得了最優的數據緩存和計算卸載策略。訓練過程可以并行地加速,而不需要向核心網絡傳輸任何對用戶敏感的數據。最后,我們基于真實數據集進行了大量的實驗,實驗結果驗證了該方法對幾種基線算法的效率和優越性。
作者簡介:
黃霽崴,教授,博士生導師,中國石油大學(北京)人工智能學院副院長,石油數據挖掘北京市重點實驗室主任。入選北京市優秀人才、北京市科技新星、北京市國家治理青年人才、昌聚工程青年人才、中國石油大學(北京)優秀青年學者。本科和博士畢業于清華大學計算機科學與技術系,美國佐治亞理工學院聯合培養博士生。研究方向包括:物聯網、服務計算、邊緣智能等。已主持國家自然科學基金、國家重點研發計劃、北京市自然科學基金等科研項目18項;以第一/通訊作者在國內外著名期刊和會議發表學術論文70余篇,其中1篇獲得中國科協優秀論文獎,2篇入選ESI熱點論文,5篇入選ESI高被引論文;出版學術專著1部;獲得國家發明專利6項、軟件著作權4項;獲得中國計算機學會服務計算“青年才俊獎”;獲得中國通信學會科學技術一等獎1項、中國產學研合作創新成果一等獎1項、廣東省計算機學會科學技術二等獎1項。擔任中國計算機學會(CCF)服務計算專委會委員,CCF和IEEE高級會員,電子學報、Chinese Journal of Electronics、Scientific Programming等期刊編委。聯系方式:huangjw@cup.edu.cn