中文題目:數據稀缺情況下的情景識別研究
論文題目:Grounded Situation Recognition under Data Scarcity
錄用期刊:Scientific Reports (中科院二區)
作者列表:
1) 周 靜 中國石油大學(北京)人工智能學院 計算機科學與技術 碩22
2) 劉志強 中國石油大學(北京)人工智能學院 計算機科學與技術 碩23
3) 胡思潁 中國石油大學(北京)人工智能學院 計算機科學與技術 碩22
4) 李曉雪 中國石油大學(北京)人工智能學院 計算機科學與技術 碩23
5) 王智廣 中國石油大學(北京)人工智能學院 計算機科學與技術系 教師
6) 魯 強 中國石油大學(北京)人工智能學院 智能科學與技術系 教師
摘要:
情景識別(Grounded Situation Recognition,GSR)是一項生成圖像結構化描述的任務。對于給定的圖像,GSR需要識別出關鍵動詞、角色所對應的名詞及其邊界框。然而,目前的GSR研究需要大量精心標注的圖片,這需要耗費許多的人力和時間,使得擴大檢測類別成本高昂。我們的研究旨在提高模型在數據稀缺場景下檢測和定位的準確率,顯著降低模型對數據量的需求,進而為后續擴大檢測類別的工作奠定基礎。在本文中,我們提出了Grounded Situation Recognition under Data Scarcity(GSRDS)模型,該模型以CoFormer模型作為基線,并對圖像特征提取、動詞分類和邊界框檢測三個子任務進行優化,以適應數據稀缺場景。具體來說,我們利用EfficientNetV2-M替代ResNet50來提取高級圖像特征,并設計了Transformer 與 CLIP 相結合的動詞分類(Transformer Combined with CLIP for Verb classification,TCCV) 模塊,利用CLIP圖像編碼器提取的特征來輔助提升動詞分類精度。同時,我們設計了多源動詞角色查詢(Multi-source Verb-Role Queries,Multi-VR Queries)和雙并行解碼器(Dual Parallel Decoders,DPD)模塊來提升邊界框檢測精度。經過廣泛的對比實驗和消融實驗,證明了我們的方法能夠在稀缺的數據樣本上取得更高的檢測精度。
背景與動機:
情景識別(GSR)作為計算機視覺領域的重要任務,旨在生成圖像的結構化描述。近年來,隨著深度學習技術的發展,研究者們在GSR任務上取得了一定的進展,然而大多數研究依賴于大量精心標注的數據集,如SWiG。這些數據集雖然為模型提供了豐富的訓練數據,但其構建成本高昂且耗時,限制了GSR在實際應用中的推廣和實施。在許多實際場景中,尤其是在專業領域,標注數據的稀缺性成為了研究的一大挑戰。例如,在醫療、自動駕駛等領域,相關圖像往往難以獲取大量標注樣本,但這些領域的GSR應用卻具有極大的潛力,通過精準的場景識別和對象定位,可以極大提高決策的智能化和準確性。因此,研究如何在數據稀缺的情況下進行GSR任務變得尤為重要。通過探索在數據稀缺條件下的GSR,我們可以降低對大規模標注數據的依賴,減輕數據標注的成本,同時為未來在各種實際應用場景中的推廣打下基礎。這不僅能夠推動GSR研究的深入發展,也能在特定領域的智能化系統構建中發揮重要作用。
設計與實現:
我們在SWiG數據集上利用隨機抽樣策略,構建了原數據集1∕2、1∕4、1∕8、1∕12和1∕16數據量的小規模數據集以用于模擬數據稀缺的場景。本文提出的GSRDS模型架構如圖1所示,主要包括三個部分:圖像特征提取,動詞預測,名詞及邊界框預測。GSRDS利用EfficientNetV2-M提取圖像特征并與位置編碼相加作為輸入。TCCV模塊利用Transformer和CLIP編碼器提取的特征對動詞進行分類。Multi-VR Queries模塊融合了動詞、角色及其定義作為對象查詢,與Glance Transformer輸出的聚合圖像特征一起作為DPD的輸入。DPD包括Gaze-Step2 Transformer和Transformer Con-Decoder,用于預測語義角色所對應的名詞和邊界框,它們的輸出將會被取均值,然后輸入到三個前饋網絡(FFN)分支中得到預測的結果。
圖1 GSRDS 模型架構
實驗結果及分析:
表1的結果展示了在五種不同規模數據量的設置下,GSRDS與其他三個模型在14個指標上的對比結果。我們針對其中5個關鍵性指標繪制了折線圖如圖2所示,(a),(b)和(c)圖分別代表在Top-1 Predicted Verb設置下verb , value 和grnd value 指標在五種數據量級上的實驗結果;(d)和(e)圖代表在Ground-Truth Verb設置下value 和 grnd value指標在五種數據量級上的實驗結果??梢钥闯?,隨著數據量的量級減小,GSRDS模型的優勢愈發明顯。表2展示了消融實驗結果。
表1 GSRDS與不同模型的對比實驗結果
圖2關鍵性指標實驗結果折線圖
表2 GSRDS模型在1/8數據量級上的消融實驗結果
結論:
在本文中,我們針對數據稀缺場景下的GSR任務進行研究,設計了GSRDS模型。具體來說,我們利用EfficientNetV2-M來替代ResNet50提取圖像特征,并設計TCCV模塊,結合CLIP圖像編碼器提取的特征,得到了更準確的動詞分類結果。同時,我們設計了Multi-VR Queries和DPD模塊來共同改進邊界框檢測精度。我們分別在五種數據量設置的條件下進行了對比實驗和消融實驗,驗證了我們模型在數據量較小的場景下,可以取得較為優異的表現性能。
盡管GSRDS模型在數據稀缺場景下相對于其他模型有較顯著的精度提升,但是與使用全部數據集訓練的模型仍有差距。在未來的工作中,可以進一步探索以下改進:
? 更合適的特征提取方法:經實驗證明,高級圖像特征會影響GSR任務的整體性能。未來的工作可以探索更適合數據稀缺場景的主干特征提取網絡。
? 更全面的特征學習方法:本研究加入CLIP模型提取的特征來彌補數據稀缺造成的特征表示不足問題,未來的工作可以挖掘更多預訓練模型的優勢,充分利用數據信息,減少數據量造成的差異。
? 更優異的邊界框檢測模型:盡管GSRDS針對邊界框檢測子任務做出了改進,但其還有很大的改進空間。未來的工作可以從提高名詞分類精度和提升目標檢測精度兩方面對邊界框檢測模型進行改進。
? 更廣泛的檢測范圍:本研究主要關注于對模型的改進,所使用的數據是從SWiG數據集中抽樣而得,未來的工作可以不局限于SWiG數據集的504個類別,可以進一步擴大到更多的類別。
通訊作者簡介:
王智廣,教授,博士生導師,北京市教學名師。中國計算機學會(CCF)高級會員,全國高校實驗室工作研究會信息技術專家指導委員會委員,全國高校計算機專業(本科)實驗教材與實驗室環境開發專家委員會委員,北京市計算機教育研究會常務理事。長期從事分布式并行計算、三維可視化、計算機視覺、知識圖譜方面的研究工作,主持或承擔國家重大科技專項子任務、國家重點研發計劃子課題、國家自然科學基金、北京市教委科研課題、北京市重點實驗室課題、地方政府委托課題以及企業委托課題20余項,在國內外重要學術會議和期刊上合作發表學術論文70余篇,培養了100余名碩士博士研究生。