中文題目:面向卷積神經網絡協同推理的交錯式算子劃分
論文題目:Cooperative Inference with Interleaved Operator Partitioning for CNNs
錄用期刊/會議:International Conference on Intelligent Computing (ICIC) 2024 (CCF C)
原文鏈接:http://poster-openaccess.com/files/icic2024/2251
作者列表:
1)劉志邦 中國石油大學(北京)人工智能學院 控制科學與工程專業 博21
2)徐朝農 中國石油大學(北京)人工智能學院 計算機系 教師
3)劉志卓 中國石油大學(北京)人工智能學院 先進科學與工程計算專業 博22
4)黃樂楷 中國石油大學(北京)人工智能學院 計算機技術專業 碩22
5)魏嘉辰 中國石油大學(北京)人工智能學院 計算機科學與技術專業 碩22
6)李 超 之江實驗室
文章簡介:
目前,智能物聯網(AIoT)已廣泛應用于工業生產、自動駕駛、智能家電等多個領域。隨著深度學習技術的興起,智能模型在執行推理過程中對設備的計算和內存需求正在急劇增加。一方面,物聯網設備的內存容量十分有限;另一方面,許多實際應用場景具有嚴格的實時響應需求。例如閥門泄漏的檢測,需要毫秒級的響應時間,否則將會導致嚴重的安全隱患。協同推理是解決這一問題的重要方法?,F有的協同推理方法通常將算子的輸出通道或特征圖的高和寬作為劃分維度。由于算子的激活值分布在多個設備上,需要在傳遞給后繼算子之前進行拼接操作,這將會引入額外的通信開銷,增加推理延遲。針對這一問題,本文提出了一種新穎的AIoT協同推理方案——交錯式算子劃分(IOP)以減少智能模型的推理延遲。
本文的主要內容如下:
(1)提出了IOP,一種適用于CNN的協同推理加速方法,通過減少推理過程中所需的通信次數來降低推理延遲。
(2)基于IOP方案,對模型最小化推理延遲問題進行了建模。
(3)提出了一種啟發式劃分算法,該算法在所有包含兩個算子的分段中應用IOP,以最小化協同推理延遲。
(4)使用多個CNN模型評估了IOP策略,表現出了優越的性能。
摘要:
分布式協同推理是解決在資源受限的智能物聯網(AIoT)設備上部署深度學習模型的重要方法?,F有的協同推理方法通常將算子的輸出通道或特征圖的高和寬作為劃分維度。由于算子的輸出激活分布在不同設備上,因此在傳遞給后繼算子之前需要進行拼接,這將引入額外的通信開銷,增加智能模型的推理延遲。針對這一問題,本文提出了一種適用于卷積神經網絡(CNN)模型的交錯式算子劃分(IOP)策略。該策略通過基于輸出通道維度對前級算子進行劃分,并基于輸入通道維度對其后繼算子進行劃分,避免了算子輸出激活的拼接過程,從而減少了設備間建立通信連接的次數,降低了協同推理的延遲。此外,我們提出了一種模型劃分算法,用于最小化協同推理時間,該算法通過基于推理延遲收益的貪婪算法來選擇算子進行配對并應用IOP方案。實驗結果表明,與CoEdge劃分方法相比,IOP策略對LeNet,AlexNet和VGG11三個經典的圖像分類模型實現了6.39%至16.83%的推理加速,并減少了21.22%至49.98%的設備峰值內存占用。
設計與實現:
我們假設所有設備的通信帶寬和計算能力相對穩定。為了確保問題的準確表述,定義了以下必要的概念和符號:表示算子在推理過程中的執行順序。
表示可用設備的集合。
用于描述可用計算設備
的信息,其中
表示設備的計算能力,
表示設備的存儲能力,
表示設備間的通信帶寬。
用于表示可劃分維度,其中
,
,
,表示算子
所選擇的劃分維度,
表示特征圖的高維度,
和
分別表示特征圖的輸入通道和輸出通道維度。
用于描述算子的屬性。對于卷積算子,
表示輸入通道數量,
表示輸出通道數量。
表示卷積核的寬,
表示卷積核的高,
表示步長,
表示填充的大小。全連接算子作為一種特殊的卷積算子,
表示輸入維度大小,
表示輸出維度大小。
表示算子被劃分成多個部分,其中
部分被分配到設備
。
表示設備
上算子
的輸入通道數量。
表示設備
上算子
的輸出通道數量。
和
分別表示設備
上算子
的權重和輸出激活的內存占用大小。
關于算子的劃分維度和大小進行以下約束:
(1)
公式(1)表示部署在每個設備上的算子必須滿足推理過程中的峰值內存占用小于設備容量。
(2)
公式(2)表示模型中的每個算子只能從H、IC和OC中選擇一個劃分維度。
(3)
(4)
(5)
公式(3)、(4)和(5)規定,在模型劃分后,各部分算子在H、IC和OC維度的大小之和必須等于原算子在相應維度上的大小。,
和
的取值為0或1,分別代表是否選擇算子的H、IC和OC維度進行劃分。
(6)
(1), (2), (3), (4), (5)
模型的推理時間由兩部分組成:計算延遲和通信延遲。其中,和
分別表示算子
在設備
上的計算延遲和通信延遲。
(7)
(8)
其中,和
分別表示在設備
上執行算子
所需要的計算量和通信量,這取決于所使用的算子劃分方法;而
和
的值由設備自身的屬性決定。
為了找到最優劃分方案以最小化協同推理延遲,設計了一種啟發式算子配對算法。該算法從第一個算子開始,逐層搜索采用交錯式劃分方案的算子對。具體來說,對于算子及其后續算子
,比較使用IOP和CoEdge劃分方法的推理時間。如果IOP方案實現了更短的推理時間,則將這兩個算子配對形成一個新分段;否則,新分段僅包含算子
。
實驗結果及分析:
我們在三種典型的CNN模型中應用了IOP方案,分別為LeNet、AlexNet和VGG11。
與OC方案相比,IOP在執行LeNet、AlexNet和VGG11模型推理時分別節省了31.53%、21.06%和12.82%的延遲。相較于CoEdge,IOP分別節省了12.05%、16.83%和6.39%的延遲。此外,與CoEdge方案相比,IOP在LeNet、AlexNet和VGG11執行推理過程中的峰值內存占用分別減少了49.98%、21.22%和40.79%。
我們針對VGG11、VGG13、VGG16和VGG19,測試了設備間通信連接建立時間從1毫秒到8毫秒情況下的推理延遲。對于VGG11網絡,使用IOP的推理延遲減少了14.51%至26.74%。而對于VGG13、VGG16和VGG19,IOP方案的推理延遲分別減少了12.99%至24.99%、3.34%至31.01%和15.01%至34.87%。
結論:
本文介紹了IOP,一種適用于CNN協同推理的低延遲模型劃分策略。通過在相鄰算子間采用IOP,減少了設備間多次建立通信連接所帶來的開銷,從而降低了模型推理延遲。我們將IOP最佳劃分策略的搜索方案描述為組合優化問題。為有效解決該問題,我們設計了一種算子配對算法,以找到最優的模型劃分策略。實驗結果表明,對于LeNet、AlexNet和VGG11這三種廣泛應用于圖像分類的CNN模型,IOP相比最先進的CoEdge方案,實現了6.39%至16.83%的推理加速,并節省了21.22%至49.98%的峰值內存占用。
作者簡介:
徐朝農,中國石油大學(北京)人工智能學院教師,主要研究領域為邊緣智能、嵌入式系統、無線網絡。