論文題目:融合卷積CR-FFD與偏置Transformer膠囊網絡的單視圖三維物體重建
錄用期刊:計算機輔助設計與圖形學學報 (CCF A)
作者列表:
1) 連遠鋒 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機系教師
2) 趙澤欣 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機科學與技術專業 碩22
摘要:
針對復雜拓撲結構物體單視圖三維重建過程中二維圖像與三維形狀之間難以準確映射的問題,提出一種融合卷積Catmull-Rom樣條自由形變(CR-FFD)與偏置Transformer膠囊網絡的單視圖三維重建方法。首先通過Catmull-Rom樣條基函數對點云模型控制點進行插值,保持點云模型形變局部拓撲結構的一致性;然后提出卷積神經網絡最小二乘求逆解法,通過非線性參數映射加速求解過程;最后設計偏置注意力Transformer膠囊網絡增強局部特征表達能力,捕獲點云形狀的細粒度特征。實驗結果表明,在ShapeNet數據集上,所提方法的EMD指標平均值為3.84,CD指標平均值為3.71;在Pix3D數據集上,EMD指標平均值為5.51,CD指標平均值為5.39;與已有的單視圖點云三維重建方法相比,該方法有效地提升單視圖的三維重建結果,能夠從不同角度保持重建的一致性。
背景與動機:
近年來,隨著深度學習和圖像處理技術的飛速發展,單視圖三維模型重建技術得到廣泛關注。由于單視圖存在自遮擋問題,無法充分表達圖像的上下文信息,因此基于點云的單視圖三維物體重建極具挑戰性。傳統的面向點云的單視圖三維重建算法根據圖像表觀特征恢復物體空間結構,對圖像的質量要求較高,并且存在時間復雜度高、重建結果不精確等問題。與傳統方法相比,基于深度學習的方法能夠快速提取輸入圖像的細節特征并推理空間幾何結構,實現高效的三維重建,但仍存在對圖像局部信息利用的不夠充分導致重建結果不精確的局限性。
設計與實現:
本文提出一種融合卷積CR-FFD(Catmull-Rom splines based FFD)與偏置Transformer膠囊網絡的單視圖三維物體重建方法。首先將Catmull-Rom樣條與FFD結合提出CR-FFD方法,通過Catmull-Rom樣條基函數對點云模型控制點進行插值,以保持形變過程的拓撲結構一致性;然后提出基于卷積神經網絡(convolutional neural networks, CNN)的最小二乘求逆解法加速CR-FFD的求解過程;為了增強網絡的局部特征表達能力,將偏置注意力(offset-attention, OA)與基于Transformer的膠囊網絡結合,提出偏置Transformer膠囊網絡,通過OA捕獲點云形狀的細粒度特征以保持二維圖像與三維模型的空間結構一致性。
主要內容:
本文方法的結構如圖1所示,包括控制點生成網絡、卷積CR-FFD模型和偏置Transformer膠囊網絡局部點云形變模塊。首先將單幅圖像輸入到控制點生成網絡獲得三維模型的控制點;然后利用卷積CR-FFD模型對模板模型進行調整;最后利用偏置Transformer膠囊網絡對局部點云進行調整,得到最終的三維點云重建結果。
圖1 系統網絡結構
實驗結果及分析:
圖2 本文三維重建結果與 PSGN 等方法對比
在Airplane和Bench數據集上,與PSGN,VGG-Pixel2Mesh和DISN這3種方法進行對比,結果如圖2所示??梢钥闯?,本文方法在Airplane數據集上的重建結果與VGG-Pixel2Mesh相近,優于其他2種方法,均取得較好的重建效果。但本文方法重建結果的噪聲更少,點云分布更加均勻,更加貼近真實形狀;在有孔洞的Bench模型上,本文方法的重建結果明顯優于其他方法,證明該方法具有較好的魯棒性。
圖3為部分真實場景圖像的三維重建結果??梢钥闯?,本文方法對于雙層結構的桌子、椅子等復雜結構的重建細節更加準確,能夠有效地保持點云模型形變局部拓撲結構的一致性。
圖3 本文方法真實場景三維重建效果
結論:
本文提出一種融合卷積CR-FFD與偏置Transformer膠囊網絡的點云三維重建方法。為實現高質量的三維點云重建模型,通過Catmull-Rom樣條基函數對點云模型控制點進行插值,保持點云模型形變局部拓撲結構的一致性,并使用卷積神經網絡最小二乘求逆解法加速求解過程。在此基礎上,將基于偏置注意力的Transformer編碼器模塊和球鄰域模型嵌入膠囊網絡,增強局部特征表達能力以捕獲點云形狀的細粒度特征。實驗結果表明,本文方法有效地提升單視圖的三維重建結果,具有較強的魯棒性。未來將結合隱表達方式描述三維模型拓撲結構,實現更高質量的重建效果;同時,進一步優化網絡結構,實現重建質量與模型性能之間的平衡。
作者簡介:
連遠鋒,教授,碩士生導師。研究方向為圖像處理與虛擬現實、機器視覺與機器人、深度學習與數字孿生。