中文題目:基于強化學習的骨干輔助實時PD-NOMA網絡中數據基站的部署策略
論文題目:Data Sinks Deployment for Backbone-Assisted Real-Time PD-NOMA Networks based on Reinforcement Learning
錄用期刊/會議:The 21st IEEE International Conference on Ubiquitous Intelligence and Computing (CCF C)
作者列表:
1) 呂振杰 中國石油大學(北京)人工智能學院 計算機科學與技術專業 碩 22
2) 徐朝農 中國石油大學(北京)人工智能學院 計算機系教師
3) 魏嘉辰 中國石油大學(北京)人工智能學院 計算機科學與技術專業 碩 22
摘要:
實時性能是骨干網輔助功率域非正交多址接入無線網絡(BA-PDNOMAWNs)在工業物聯網應用中的關鍵指標之一。由于數據基站與無線傳感器之間的地理位置關系對實時性能有極大影響,因此在無線傳感器固定的場景下,合理設置數據基站的位置是一種實現高實時性能的有效方法。本文將骨干網輔助PD-NOMA無線網絡中尋找最佳數據基站位置的問題建模為一個最小化上行傳輸時延的優化問題。為了找到一種低復雜度的算法,我們首先將該問題形式化為馬爾可夫決策過程,并提出了一種基于經典多智能體深度確定性策略梯度的強化學習算法,其中獎勵函數經過精心設計,以加速收斂。實驗結果表明,相較于單個數據基站,多個數據基站在BA-PDNOMAWNs中可以將上行傳輸時延減少2.2倍。此外,與經典的模擬退火優化算法及其他部署算法(如CC和GP算法)相比,所提出的算法可以將上行傳輸時延減少2倍,從而實現更優的實時性能。
主要內容:
1、問題建模
為了更清晰地描述問題,我們給出了“可行解碼序列”的定義,對于一個擁有m個數據基站的BA-PDNOMAWN網絡,我們需要找到m個可行的位置 (X1,Y1),(X2,Y2),…,(Xm,Ym) 來最小化幀長度。因此,該問題可以表述如下。
其中Ne表示一個可解碼用戶序列。
2、算法設計
為了解決上面的問題,首先我們將問題轉化為一個馬爾可夫過程,并對其中的獎勵策略進行了詳細設計。我們同時給出了“序列干擾度”和“序列全局干擾增量”的定義?;谏鲜鯞A-PDNOMAWNs的原則以及“可行解碼序列”的定義,首先順序選擇尚未被分配的所有可行UE。然后,計算該序列的全局干擾增量,選擇全局干擾增量值最小的UE,并將其分配到當前時槽的下一階段。該過程將持續進行,直到沒有UE可以分配到該時槽為止,從而完成該時槽的UE分配。此過程將在后續的時槽中重復進行,直到所有UE都完成分配。從而可以計算出獎勵值。
然后,我們提出了一種基于MADDPG的骨干網輔助多數據基站部署(BAMDSP)算法來解決這個問題。
實驗結果及分析:
我們還將所提出算法與模擬退火(SA)算法及現有的BA-PDNOMAWNs多數據基站部署算法如CC、GP進行比較。在僅有一個數據基站的非骨干無線網絡中,我們的方法將上行幀長度分別減少了2.2倍、1.22倍和1.33倍。在BA-PDNOMAWNs中,我們提出的方法甚至可以將接入時延減少2倍。
小結:
本文探討了靈活部署數據基站對BA-PDNOMAWNs中接入時延性能的影響。本文提出的BAMDSP算法為提升實時性能提供了有效的解決方案。隨著NOMA技術的廣泛應用以及骨干網連接數據基站所帶來的優勢,BA-PDNOMAWNs預計將在不久的將來成為一個重要的研究熱點。
作者簡介:
徐朝農,中國石油大學(北京)人工智能學院教師,主要研究領域為邊緣智能、嵌入式系統、無線網絡。