中文題目:CCDepth:一種可解釋性增強的輕量化自監督深度估計網絡
論文題目:CCDepth: A Lightweight Self-Supervised Depth Estimation Network with Enhanced Interpretability
錄用期刊/會議:IEEE ITSC (CAA A)
作者列表:
1) 張 熙 中國石油大學(北京)人工智能學院 電子信息工程專業 本20
2) 薛亞茹 中國石油大學(北京)人工智能學院 電子信息工程系 教師
3) 賈邵程 香港大學 土木工程系 博21
4) 裴 新 清華大學 自動化系 教師
深度信息在自動駕駛領域發揮著至關重要的作用,準確的深度信息可以幫助自動駕駛系統正確地感知和理解周圍環境。近年來,僅以單目圖像序列為輸入的自監督深度估計技術越來越受到人們的歡迎,擁有廣闊的前景。
當前關于深度估計模型的研究主要集中在提高模型的預測精度方面,然而,過多的參數阻礙了模型在邊緣設備上的通用部署。此外,目前常用的神經網絡作為黑盒模型,其內部工作原理無法被數學解釋,導致其性能難以被改進。為了緩解這些問題,本文提出了一種全新的、具有混合結構的自監督深度估計網絡CCDepth,該網絡由卷積神經網絡(CNN)和白盒CRATE(Coding RAte reduction TransformEr)網絡組成。這個全新的網絡使用CNN和CRATE網絡層分別提取圖像中的局部和全局信息,從而提高網絡學習能力、降低模型參數量。此外,通過CRATE網絡的加入,本文提出的模型可以在捕捉全局特征的過程中被數學解釋。
在KITTI數據集上的大量實驗表明,本文提出的CCDepth網絡可以達到與當前最先進方法相當的性能,同時模型尺寸已顯著減少。此外,對CCDepth網絡內部特征的一系列定量和定性分析進一步證實了本文所提方法的有效性。
近年來,伴隨著人工智能的快速發展,人工智能的相關技術已經深入到人們的日常生活中。深度估計是自動駕駛系統的關鍵技術之一,發揮著讓系統準確感知周圍環境的任務。目前對于深度估計模型預測精度的研究已經較為完善,但是模型參數量輕量化和可解釋性方面還存在局限和空白,限制著深度估計模型在自動駕駛領域的具體落地。
圖1 CCDepth網絡的編碼器-解碼器結構
圖1為本文提出的CCDepth網絡結構圖,模型采用U-Net架構,編碼器以RGB圖像為輸入,通過特征提取,在解碼器網絡得到圖像深度的預測值。網絡采用CNN-CRATE串聯的結構,在圖像分辨率大的部分,由CNN網絡層提取圖像的局部信息;在分辨率低的部分,利用CRATE網絡層提取圖像的全局信息。另外,網絡會通過跳躍連接方式將U-Net編碼器淺層提取到的細節特征直接傳輸至解碼器的對應位置,以避免信息的丟失。
如圖2所示,為本文采用的CNN網絡層結構,該網絡由兩個最簡單的殘差塊構成。卷積核邊緣填充方式采用反射填充。
圖2 CNN網絡層結構
圖3為本文CRATE網絡層的工作流程,主要分為五步:第一步,將輸入圖像分割為若干圖像塊;第二步,破壞圖像的二維結構,將圖像塊展開為一個序列;第三步,被映射為一個向量,并輸入CRATE網絡;第四步,向量集合(tokens)在CRATE網絡中學習并被更新;第五步,向量集合被重新組合為圖像格式,得到該層的輸出特征圖,即步驟2的逆過程。
圖3 CRATE網絡層的工作流程
圖4為CRATE網絡的基礎模塊結構圖,網絡由多頭子空間自注意力模塊(Multi-Head Subspace Self-Attention block,MSSA)和一個迭代收縮閾值算法模塊(Iterative Shrinkage-Thresholding Algorithms block,ISTA)構成,分別擔任壓縮(去噪)和稀疏化的操作。
圖4 CRATE網絡的基本模塊
如圖5所示,CCDepth網絡在自監督學習框架下進行訓練,整個深度估計網絡由深度網絡和姿態網絡兩部分構成。深度網絡接收視頻序列中當前幀圖像,經過編碼器-解碼器網絡獲得深度估計圖
,姿態網絡接收當前幀圖像
和相鄰幀圖像
,其中
,并從中提取相機的位移信息。隨后,根據
與相機的位移信息
,進行圖像重構,得到對
的重構圖像
,并計算訓練損失。
圖5 CCDepth網絡的自監督學習訓練框架
表1所示,為本文提出的CCDepth模型與現有先進模型的定量對比結果。CCDepth在KITTI測試集的預測誤差和精度上取得了更好的表現。同時,模型參數量僅有12.6M,相較于Monodepth2和FSLNet分別下降78.8%和23.6%。
表1 自監督深度估計在KITTI數據集上的定量結果
模型 |
誤差,越小越好 |
精度,越大越好 |
模型 參數量 |
|||||
|
Abs Rel |
Sq Rel |
RMSE |
RMSE log |
||||
Zhou et al. |
0.208 |
1.768 |
6.856 |
0.283 |
0.678 |
0.885 |
0.957 |
126.0M |
Geonet |
0.153 |
1.328 |
5.737 |
0.232 |
0.802 |
0.934 |
0.972 |
229.3M |
Casser et al. |
0.141 |
1.138 |
5.521 |
0.219 |
0.820 |
0.942 |
0.976 |
67.0M |
Monodepth2 |
0.115 |
0.903 |
4.863 |
0.193 |
0.877 |
0.959 |
0.981 |
59.4M |
FSLNet-L |
0.128 |
0.897 |
4.905 |
0.200 |
0.852 |
0.953 |
0.980 |
16.5M |
CNN-ViT |
0.119 |
0.857 |
4.789 |
0.194 |
0.867 |
0.958 |
0.981 |
17.4M |
CCDepth (Our) |
0.115 |
0.830 |
4.737 |
0.190 |
0.874 |
0.959 |
0.982 |
12.6M |
圖6所示,為自監督深度估計任務上的定性對比結果。由標記框中的內容可以定性分析得出,本文提出的模型在圖像深度預測上,尤其是對于細小障礙物和天空距離的識別方面,優于其他的模型。這是由于CCDepth采用了基于CNN和CRATE的混合網絡結構,因此可以更加有效地提取圖像局部和全局特征。
圖6 自監督深度估計的定性結果
表2與表3所示,為本文的消融實驗結果。在本部分,通過實驗證明了網絡多尺度預測和卷積核反射填充方式的必要性。
表2 不同預測尺度下的消融研究
Scales |
誤差,越小越好 |
精度,越大越好 |
|||||
|
Abs Rel |
Sq Rel |
RMSE |
RMSE log |
|||
1 |
0.119 |
0.860 |
4.750 |
0.194 |
0.870 |
0.958 |
0.981 |
2 |
0.121 |
0.861 |
4.760 |
0.195 |
0.866 |
0.957 |
0.981 |
3 |
0.118 |
0.841 |
4.738 |
0.194 |
0.870 |
0.958 |
0.981 |
4 |
0.115 |
0.830 |
4.737 |
0.190 |
0.874 |
0.959 |
0.982 |
表3 不同填充方式下的消融研究
Padding mode |
誤差,越小越好 |
精度,越大越好 |
|||||
Abs Rel |
Sq Rel |
RMSE |
RMSE log |
||||
zeros |
0.118 |
0.858 |
4.755 |
0.193 |
0.870 |
0.958 |
0.981 |
reflect |
0.115 |
0.830 |
4.737 |
0.190 |
0.874 |
0.959 |
0.982 |
圖7所示,為CRATE網絡內部各模塊輸出的非零項占比對比,可以分析得到,CRATE網絡在深度估計任務中有效地為所有數據實現壓縮(去噪)和稀疏化,將特征向低秩轉化,以更好地暴露全局信息。
圖7 CRATE網絡層內各模塊輸出的非零項占比對比,(a)CCDepth中第一個CRATE網絡層的結果,(b)CCDepth中第二個CRATE網絡層的結果,(c)CCDepth中第三個CRATE網絡層的結果,(d)CCDepth中第四個CRATE網絡層的結果。
圖8所示,為網絡中CNN和CRATE網絡層的特征圖??梢悦黠@地看出,CNN網絡(layer 3和layer 8)更強調提取圖像的具體形狀和邊緣細節。相比之下,CRATE網絡則側重于描述圖像的環境等全局結構。這與CCDepth最初設計中通過CNN-CRATE結構分別提取圖像細節和全局信息的理念相吻合,進一步肯定了CCDepth網絡結構設計的有效性。
圖8 CNN和CRATE特征圖的可視化結果
本文提出了一種全新的深度估計網絡CCDepth,該網絡通過CNN和CRATE分別提取圖像的細節和全局信息,以實現在自監督深度估計任務中高效地提取有用特征。相比較于現有的先進模型,CCDepth擁有更高的準確度,顯著降低了模型參數量,并提升了網絡可解釋性。
薛亞茹,副教授,博士生導師/碩士生導師。主要從事信號處理、圖像處理、人工智能、地球物理反演等方面研究。