中文題目:基于音頻感知身份補償的一次性說話人頭生成
論文題目:One-shot Talking Head Generation with Audio-aware Identity Compensation
錄用期刊:第五屆物聯網、人工智能與機械自動化國際學術會議 (IoTAIMA)(EI)
作者列表:
1)袁瑞鴻 中國石油大學(北京)人工智能學院 計算機技術 碩22
2)王智廣 中國石油大學(北京)人工智能學院 計算機科學與技術系 教授
摘要:
生成說話頭像的主要目標是基于輸入音頻信號和人物的源圖像合成逼真且富有表現力的視頻。這涉及到創建一個動態、同步且視覺上令人信服的人物表示,當人物表述提供的音頻內容時,這些表示在圖像中會相應展現出來。然而,生成視頻中存在偽像,如嘴巴區域模糊、面部特征扭曲以及頭部和嘴唇運動不穩定等問題。上述缺陷可歸結為唇部未同步以及面部表示不足,這將極大地降低生成的說話頭像視頻的質量。為了解決這個問題,我們提出了一種基于一次音頻感知的說話頭像生成架構,稱為AaICNet,該架構通過學習的全局面部特征進行補償。我們使用AaICNet從隨機給定的音頻中獲得唇部同步的音頻嵌入,然后驅動肖像隨著輸入音頻進行說話。具體來說,我們首先構建了一個音頻編碼器和面部編碼器來提取音頻特征和面部特征,并將它們合并成一個混合特征。為了準確塑造嘴唇運動,我們訓練了一個強大的唇部同步鑒別器來生成驅動視頻。在完成中間說話者訓練階段后,我們選擇得分最高的LSE-C的人作為下一階段訓練的驅動圖像。然后我們引入了一個有效的補償模塊,該模塊計算全局面部結構并豐富變形后的源圖像以供后續生成。大量實驗表明,我們所提出的架構可以穩定地處理說話頭像生成任務,并能在生成視頻的視覺質量和唇部同步準確性之間取得良好的平衡。
背景與動機:
唇形編輯是指在視頻處理和圖像合成中,用聲音信號將人物或虛擬角色的嘴部運動進行人為改變的技術。例如給定源視頻(source video),再給定驅動音頻(driving audio),那么得到的輸出是源視頻人物以驅動音頻的音色和說話內容講話,其唇部運動方式是與該音頻對應的。
基于唇形編輯的說話頭像的驅動技術的發展,促進了數字媒體時代中虛擬人物和人機交互體驗的進步。在數字人物生成領域,通過應用包括深度學習在內的人工智能技術,數字人物已經逐漸擁有了更加逼真的外觀和動態表現。近些年,這一趨勢在各種領域中都體現出來,從娛樂產業中的游戲角色、虛擬主播,到商業應用中的虛擬銷售都能看到其影響。
設計與實現:
一次音頻感知身份補償的說話頭像生成網絡分為三部分:
(1)中間說話人生成模塊:這個模塊輸入一個下半部分被遮擋的面部序列幀,然后將其與同長度的未遮擋面部序列進行連接,作為面部編碼器的輸入。未遮擋的面部序列提供姿勢先驗,以指導后續的重建過程。該模塊主要是一個生成器-判別器架構。模型中包含面部編碼器、音頻編碼器和面部解碼器,每個組件由一系列卷積層組成。具體而言,音頻編碼器對輸入音頻片段進行編碼,而面部編碼器對隨機參考幀進行編碼。我們獨特的損失函數結合了余弦相似度和二元交叉熵損失。接著,我們計算面部嵌入和音頻嵌入之間的點積,以指示音頻和嘴唇嵌入的同步概率。接下來,我們將音頻嵌入和面嵌入拼接作為解碼器的輸入,經過解碼器生成中間說話頭像。如下圖所示。
(2)最優中間說話人選擇模塊。在面部數據上經過大量訓練后,中間說話者生成模塊會產生許多由音頻驅動的說話者化身。但并非所有這些化身對我們都有用。在最優中間說話者選擇模塊中,我們計算具有最佳唇部同步誤差置信度(LSE-C)的圖像,并保留此圖像作為下一個模塊的驅動化身。
(3)面部特征補償模塊。該模塊首先接收最優中間說話者選擇模塊生成的圖像(一次只接收一張)作為驅動圖像和源圖像。關鍵點檢測器首先檢測驅動圖像和源圖像的關鍵點對D和S,然后這些關鍵點配對將被用于估計D和S之間的光流(motion flow)。并利用該光流對第i個通道中的編碼源臉特征進行扭曲(warp),生成扭曲特征。將源圖像的這些關鍵點變寬,然后與扭曲的源特征連接在一起,然后送入多層感知機生成隱式的身份表示。我們從扭曲特征中提取數量是實際一半的特征并進行卷積變換以產生投影特征。我們訓練了一個全局人臉記憶存儲單元(memory bank),可以根據作為查詢條件的來對人臉進行細節補償。此外,我們采用交叉注意力機制來補償扭曲的源特征。記憶產生k、q、v以對投影特征進行條件處理。
總體結構如下圖所示
實驗結果及分析:
我們在VoxCeleb1和HDTF上評估我們的AaICNet,這兩個數據集分別是低視覺質量數據集和高視覺數據集。VoxCeleb1包含有1251個說話人臉視頻,而HDTF包含有430個高分辨率的說話人臉視頻。我們在VoxCeleb1上訓練我們的AaICNet并在HDTF上進行測試。我們利用結構相似性(SSIM)、峰值信噪比(PSNR)和感知圖像塊相似性(LPIPS)指標來評估低級相似性和感知相似性。同時,為了驗證我們的架構是否能夠生成準確的唇部運動,我們還使用唇部同步誤差距離(LSE-D)和唇部同步誤差置信度(LSE-C)作為我們的評價指標。下圖為與其他四個不同的方法在HDTF數據集上的表現對比,進一步證明了我們的方法的有效性。
結論:
本研究對當前的說話人(talking head)生成方法進行了重新審視,針對唇形同步問題和面部補償問題進行了深入研究。通過引入唇形同步模塊對輸出的說話人的音頻效果進行約束,同時提出了中間人選擇機制,來保證輸出最終說話人與源說話人的身份一致性和結構相似性,同時還提出了全局面部特征記憶庫,以解決之前生成的面部表情的缺陷問題。實驗結果表明,我們的框架可以創建one-shot說話人肖像,同時具備精確的唇部動作和更高的保真度。本研究為后續對數字人領域的進一步研究提供了參考和對照。
通訊作者簡介:
王智廣,教授,博士生導師,北京市教學名師。中國計算機學會(CCF)高級會員,全國高校實驗室工作研究會信息技術專家指導委員會委員,全國高校計算機專業(本科)實驗教材與實驗室環境開發專家委員會委員,北京市計算機教育研究會常務理事。長期從事分布式并行計算、三維可視化、計算機視覺、知識圖譜方面的研究工作,主持或承擔國家重大科技專項子任務、國家重點研發計劃子課題、國家自然科學基金、北京市教委科研課題、北京市重點實驗室課題、地方政府委托課題以及企業委托課題20余項,在國內外重要學術會議和期刊上合作發表學術論文70余篇,培養了100余名碩士博士研究生。