中文題目:基于非貫穿式張量劃分的協同推理加速
論文題目:Collaborative Inference Acceleration with Non-Penetrative Tensor Partitioning
錄用期刊/會議:2025 IEEE International Conference on Acoustics, Speech, and Signal Processing(CCF B)
原文鏈接:https://arxiv.org/abs/2501.04489
錄用時間:2024年12月21日
作者列表:
1)劉志邦 中國石油大學(北京)人工智能學院 控制科學與工程專業 博21
2)徐朝農 中國石油大學(北京)人工智能學院 計算機系教師
3)呂振杰 中國石油大學(北京)人工智能學院 計算機科學與技術專業 碩 22
4)劉志卓 中國石油大學(北京)人工智能學院 先進科學與工程計算專業 博 22
5)趙蘇豫 中國石油大學(北京)人工智能學院 計算機技術專業 碩 22
摘要:
在邊緣設備上進行大尺寸圖像推理通常受到計算資源的限制。目前,基于圖像劃分的協同推理是解決這一問題的有效方案,即將大尺寸圖像劃分為多張子圖,并將每個子圖分配給不同的邊緣設備執行推理。然而,各子圖劃分邊界的數據共享會帶來一定的通信開銷,導致額外的推理時延。為了解決這一問題,本文提出了一種非貫穿式張量劃分(Non-Penetrative Tensor Partitioning,NPTP)方案,通過最小化子圖劃分邊界的通信數據量來降低通信時延,進而減少整體推理延遲。我們在四種廣泛使用的卷積神經網絡(Convolutional Neural Networks,CNN)模型上對NPTP進行了評估。實驗結果表明,與協同推理算法CoEdge相比,NPTP實現了1.44至1.68倍的推理加速。
背景與動機:
隨著邊緣計算和深度學習技術的普及,CNN在醫療、工業、交通等領域得到了廣泛應用。但其在部署和推理過程中,面臨著推理的實時性需求以及設備計算與存儲資源受限等挑戰。針對以上問題,現有解決方案通常采用多設備協同推理方式。以圖1中的圖像分類應用為例,模型的特征提取部分被復制并分別部署在設備 A、B 和 C 上。輸入圖像被貫穿式的劃分為三個部分,并分別輸入到這些設備中以生成三個特征圖。在分類階段,這三個特征圖將在某個設備(如圖中設備 B)上進行聚合,以完成剩余的分類任務。
圖1 基于圖像劃分的協同推理方案
然而,由于CNN模型特征提取層中的卷積操作是通過滑動窗口方式執行計算的,如圖1所示,對原始圖像進行貫穿式劃分會導致某些設備在卷積過程中缺少完整的輸入數據。因此,為保證推理結果的準確性,這些設備必須從相鄰設備獲取缺失的邊界圖像數據(也稱為共享數據),這一過程將會引入額外的設備間通信開銷。
設計與實現:
通過非貫穿式劃分方案,可以顯著減少設備間獲取子圖邊界數據而產生的通信開銷。圖2展示了在貫穿式和非貫穿式劃分方案下的卷積計算過程。圖2(a)表示貫穿式劃分的情況。其中,紅色和紫色方框分別表示卷積核在特征圖上滑動到的兩個不同位置。假設卷積核的尺寸為3×3,步長為1。在滑動窗口位置1的計算過程中,設備A需要從設備B獲取特征圖的第3行數據。同樣,在滑動窗口位置2的計算過程中,設備B需要從設備C獲取特征圖的第5行數據。這種情況下,總共享數據量為24個像素單位。
圖2 傳統劃分與非貫穿圖像劃分方案
在圖2(b)中,應用非貫穿式劃分方案后,共享數據量減少到20個像素單位,從而降低了設備間通信開銷。
主要內容:
圖3 多級圖像劃分流程
如圖3所示,步驟1從原始圖像中選擇高度或寬度維度進行劃分,得到子圖1,并將其指派到設備A作為輸入。步驟2對剩余的圖像部分進行劃分,得到子圖2,并將其指派到設備B。重復執行此過程,直到整個圖像被劃分并完成分配。該算法等效的實現了原始圖像的非貫穿式劃分。每次生成的劃分方案被輸入到評估函數中,計算相應的推理延遲。從第二次得到的劃分方案開始,通過將當前生成的方案與上一次獲得的方案進行比較,并給出獎勵或懲罰,調整劃分位置。在完成預定義輪次的迭代后,選擇獎勵值最高的方案作為最終的非貫穿式劃分方案。關于每輪獲取非貫穿劃分方案的詳細過程如算法1所示。
實驗結果及分析:
本研究采用三塊NVIDIA顯卡模擬邊緣設備集群,構建了NPTP方案的實驗原型系統。實驗選取不同類型的VGG網絡架構作為基準模型,這些模型在特征提取階段分別包含不同數量的卷積層,可有效驗證不同CNN在NPTP下的表現。
圖4 NPTP 和 CoEdge 劃分方案在不同通信帶寬下的推理延遲
在設備帶寬范圍從0.1 MB/s到1.0 MB/s的場景下,這些網絡模型在CoEdge和 NPTP下的推理延遲如圖4所示。與CoEdge相比,NPTP在VGG11、VGG13、VGG16 和VGG19上分別實現了1.22-1.31倍、1.32-1.43倍、1.37-1.52倍和1.45-1.58倍的推理加速。NPTP在VGG19上的效果比其他三個模型更為顯著。這是因為VGG19含有更多的卷積層,導致在推理過程中減少了更多圖像劃分邊界的數據共享開銷。
圖5 四種 VGG 網絡在 NPTP 和 CoEdge 劃分方案下的通信數據量
為了對推理階段節省的通信開銷進行定量分析,對每一層卷積算子執行計算時設備間的通信量進行了研究。如圖5所示,與CoEdge相比,NPTP的通信量最多可減少1.32倍。在模型推理過程中,NPTP方案在每個卷積算子執行計算時設備間的通信量始終低于CoEdge。兩種劃分方案的通信量變化趨勢大致相同。這是因為當輸入圖像的劃分方式確定后,每個子圖輸入相同的模型,并執行相同的計算過程。
圖6 NPTP和CoEdge 在不同尺寸圖像輸入時的推理延遲
由于NPTP方案主要應用于大尺寸圖像推理的場景。因此,研究不同輸入圖像尺寸下NPTP對模型推理延遲的改進效果是十分必要的。如圖6所示,NPTP在所有圖像尺寸下的推理延遲始終低于CoEdge,在VGG13和VGG16網絡上分別實現了1.44-1.68倍和1.47-1.64倍的推理加速。
結論:
本文提出了一種新穎的協作推理方案NPTP,通過非貫穿的劃分方式減少卷積運算過程中圖像劃分邊界的數據共享開銷進而實現推理加速。該方案設計了啟發式算法MPA,通過對原始圖像進行多級劃分并引入評估機制,獲得合理的劃分與指派方案。實驗結果表明,與CoEdge相比NPTP實現了1.44-1.68倍的推理加速。
作者簡介:
徐朝農,中國石油大學(北京)人工智能學院教師,主要研究領域為邊緣智能、嵌入式系統、無線網絡。