中文題目:基于多尺度時空信息挖掘的深度偽造人臉視頻檢測
論文題目:Mining Generalized Multi-timescale Inconsistency for Detecting Deepfake Videos
錄用期刊/會議:International Journal of Computer Vision (CCF-A類期刊)
原文DOI:https://doi.org/10.1007/s11263-024-02249-7
原文鏈接:https://link.springer.com/article/10.1007/s11263-024-02249-7
錄用/見刊時間:2024.10.9
作者列表:
1)于 洋 中國石油大學(北京)人工智能學院 電子系 教師
2)倪蓉蓉 北京交通大學 計算機與技術學院 信息科學研究所 教師
3)楊思遠 南洋理工大學 電氣與電子工程學院 ROSE實驗室 博士后
4)倪 禹 字節跳動
5)趙 耀 北京交通大學 計算機與技術學院 信息科學研究所 教師
6)Alex C. Kot南洋理工大學 電氣與電子工程學院 ROSE實驗室 教師
摘要:
近年來,人臉視頻偽造技術的進步帶來了新的社會安全隱患?,F有檢測方法的泛化能力較弱,主要由于時空異常信息提取不足和難以應對不同偽造技術間的分布差異。為解決這些問題,本文提出了一種創新的檢測算法,重點在于挖掘多尺度時空信息捕捉全面的異常偽影,并減少特征分布差異,從而提升模型的泛化性能。實驗結果表明,本文算法在深度偽造視頻檢測方面優于現有的最先進方法。
背景與動機:
深度偽造視頻是逐幀生成的,可能造成時空異常信息。因此挖掘時空信息線索在提升深度偽造視頻的檢測能力方面具有關鍵作用。時空異常信息會存在于短時連續幀中,同時也會存在于長時非連續幀中,先前的研究忽略了兩種時間視角的交互作用,導致時空異常信息提取不足。另外,偽造技術和數據集之間的存在較大的分布差異,現有算法無法處理。在此背景下,全面挖掘時空異常信息及和更好應對不同偽造技術間的分布差異顯得尤為重要。
設計與實現:
圖1 基于多尺度時空信息挖掘的深度偽造人臉視頻檢測框架
檢測算法框架如圖1所示,首先構建短時連續時間視圖,通過稀疏采樣選取關鍵動態不一致幀組。采用多路徑時空信息放大模塊,精準挖掘細微時空異常。其次,構建長時時間視圖,通過圖卷積網絡同時學習多個時間組之間的關系,全面整合各時間組的交互效應,以全面捕捉時空異常。最后,設計域對齊模塊,通過縮小不同偽造技術或數據集間的域間距離并擴大域內樣本間的距離,構建更具泛化能力的特征空間。該算法的總損失為,包括真假分類損失及域對齊損失:
其中域對齊損失包括域間距離縮小損失及域內距離擴大損失:
通過以上損失函數,域對齊損失可以直接消除特征分布中的域偏差,我們的框架被引導學習域不變的不一致性表示,從而進一步提高檢測深度偽造視頻的泛化能力。
實驗結果及分析:
我們準備了6個偽造人臉視頻數據集,對于單數據庫內的檢測,我們的方法基本可以達到97%以上的準確率,如下圖。
圖2 單數據庫內的檢測結果
我們進一步評估所提算法在檢測未知偽造技術檢測方面的泛化能力。在此檢測任務中,在FF++數據集中使用留一法策略進行實驗,檢測準確率可以達到93%以上,如下圖。
圖3 未知偽造技術的檢測結果
另外,在四個時空偽造數據集上進行了跨數據集檢測實驗,模型在所有評估指標方面都取得了更好的表現,如下圖。
圖4 跨數據集的檢測結果
結論:
現有檢測方法泛化能力較弱,主要由于時空異常提取不足和偽造技術間分布差異。為此,本文提出創新檢測算法,挖掘多尺度時空信息并減少特征分布差異,提升模型泛化性能。實驗結果表明,該算法在深度偽造視頻檢測上優于現有最先進方法。
作者簡介:
于洋,特任崗位副教授,2017年本科畢業于中國石油大學(北京)測控技術與儀器專業,2024年于北京交通大學獲信號與信息處理專業博士學位,2021年獲國家留學基金委資助于新加坡南洋理工大學進行博士聯合培養。研究方向主要關注于多媒體信息安全,包括數字圖像取證、數字視頻取證以及深偽音視頻取證等領域。在TMM、TCSVT、TOMM、SP、SPL、SPIC、ICASSP、PRCV等國際會議和期刊上發表學術論文10余篇,研究成果支撐國家自然科學基金重點項目、面上項目及企業橫向項目中關鍵指標的完成。擔任TMM、TIFS、TDSC、TIP等期刊審稿人。