論文題目:基于粒子群優化對比學習和多模態糾纏圖卷積的頭部姿態估計
錄用期刊:IET Image Processing (中科院SCI 4區, JCR Q3)
錄用時間:2024年6月3日
作者列表:
1) 連遠鋒 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算智能教學與研究中心教師
2) 師印亮 中國石油大學(北京)信息科學與工程學院/人工智能學院 人工智能專業 碩22
3) 劉兆年 中海油研究總院有限責任公司 高級工程師
4) 姜 彬 中海油研究總院有限責任公司 高級工程師
5) 李興濤 中國石油國際勘探開發有限公司 高級工程師
摘要:
由于從二維特征空間到三維姿態空間的非線性映射的復雜性,頭部姿態估計是一項特別具有挑戰性的任務。為了解決上述問題,本文提出了一種基于粒子群優化對比學習(PSO-CL)和多模態糾纏態圖卷積網絡(MEGCN)的高效頭部姿態估計框架。首先,提出了一種新的二維關鍵點檢測網絡——區域和差分感知特征金字塔網絡(RD-FPN),以減輕背景干擾,增強特征表達能力。然后,構造PSO-CL交替匹配二維和三維關鍵點,以多模態關鍵點匹配精度作為優化目標,同時考慮對比學習的交叉模態正、負樣本對的相似性作為局部對比約束。最后,設計MEGCN網絡并嵌入二階雙線性注意來增強關鍵點與頭部姿態角度之間幾何關系的表達能力,引入點-邊注意來改進多模態關鍵點之間的幾何特征的表示。在300W-LP、AFLW2000、BIWI數據集上,與其他方法相比,我們的方法的平均誤差降低了8.23%,表明本文方法的準確性、泛化性和效率。
背景與動機:
頭部姿態估計是計算機視覺的一個重要任務,已廣泛應用于各個領域,如人機交互、視頻監控、虛擬現實、面部表情識別,凝視估計和行為理解等。頭部姿態估計方法主要可分為傳統的估計方法和基于深度學習的估計方法。早期傳統估計方法往往采用外觀模板方法,估計結果精度較低,魯棒性較差。近年來,利用卷積神經網絡強大的特征提取能力,采用深度學習的方法來估計頭部姿態。雖然已經取得了顯著的改進,但由于圖像中二維和三維的相互關系信息挖掘難度大,導致兩者之間的精確映射關系難以建立,使得從二維空間到三維姿態的估計難以獲得良好的結果。
主要內容:
模型結構
頭部姿態估計網絡的結構框架如圖1所示。首先,將圖像輸入到RD-FPN中,生成關鍵點熱圖。采用基于積分回歸的方法提取二維關鍵點,通過三維人臉重建模型3DFRM,利用二維關鍵點信息生成初始的三維人臉點云模型。其次,設計了基于粒子群優化PSO-CL的對比學習方法,用于二維和三維關鍵點位置的交互匹配。最后,提出了一個基于二階雙線性注意的多模態糾纏圖卷積網絡MEGCN來糾纏二維和三維關鍵點特征。將糾纏特征輸入到全連接層中,獲得頭部姿態角。
圖1 頭部姿態估計網絡的結構框架
為了提高二維和三維關鍵點的匹配精度,提出了一種基于粒子群優化的對比學習交互匹配算法PSO-CL,如圖2所示。為了避免通過對比學習陷入局部最優,同時提供有效的局部交互特征,這里充分利用PSO在非線性空間中的全局搜索能力來探索最優匹配參數。
圖2 基于粒子群優化的對比學習交互匹配算法
由于難以捕獲多模態特征之間的相關性,我們提出了一種基于二階雙線性注意的多模態糾纏圖卷積網絡MEGCN,如圖3所示。MEGCN可以有效地集成這兩種多模態信息,通過多模態全局特征交互塊在不同模態之間傳輸信息,并通過局部特征糾纏塊將多模態全局交互信息整合到當前的局部圖中。同時,引入點邊緣注意,以提高局部特征表達能力。
圖3 基于二階雙線性注意的多模態糾纏圖卷積網絡
實驗結果及分析:
為了定量地評估我們的方法的準確性,表1和表2顯示了最先進的方法和我們的方法與AFLW2000和BIWI數據集的MAE。粗體表示每一列中的最小值。結果表明,我們建立的關鍵點和頭部姿態之間的非線性關系更穩健。在BIWI-train數據集上重新訓練該模型,并在BIWI-test數據集上進行測試。實驗結果見表3,表明所提模型的性能最優??梢钥吹?,本文模型在所有數據集上都達到了最低的總體MAE,并且在單個數據集上也表現良好。
表1 在AFLW2000數據集上的實驗比較結果
(所有模型均在300W-LP訓練集上進行訓練)
表2 在BIWI數據集上的實驗比較結果
(所有模型均在300W-LP訓練集上進行訓練)
表3 在BIWI數據集上的實驗比較結果
(BIWI數據中70%數據作為訓練集,30%作為測試集)
圖4可視化了BIWI數據集上的二維和三維關鍵點的匹配結果。結果表明,該模型對不同角度的關鍵點匹配具有很強的魯棒性。
圖4 BIWI數據集的二維和三維關鍵點匹配的示例
圖5顯示了不同方法在AFLW20002000、BIWI和BIWI-test數據集上的結果??梢钥闯?,本文模型能夠合理地估計各種頭部姿態。
圖5 AFLW20002000、BIWI和BIWI-test數據集上實驗結果
結論:
本文提出了一種新的具有區域和差分感知機制的特征金字塔網絡,從RGB人臉圖像中檢測二維關鍵點,以提供平面信息,進而提高三維人臉重建的質量。在此基礎上,構建粒子群優化的對比學習,通過二維和三維關鍵點的交替匹配,實現跨模態關鍵點重定位,將粒子群優化的全局搜索能力與對比學習的局部特征交互能力相結合,獲得魯棒結果。最后,提出了二階雙線性注意圖卷積來糾纏多模態特征,利用多模態信息的互補性來增強面臉關鍵點的幾何分布與頭部姿態角度之間關系的探索能力。
雖然我們已經顯著提高了該方法的評估精度,但在實際應用中仍有一些局限性,特別是在極具挑戰性的條件下捕獲的頭部姿勢。由于大模型顯著的視覺理解能力和強大的特征表示能力,未來將嘗試將大型視覺模型應用于頭部姿態估計。
作者簡介:
連遠鋒,教授,碩士生導師。研究方向為圖像處理與虛擬現實、機器視覺與機器人、深度學習與數字孿生。