中文題目:開放集條件下群體活動識別的再思考
論文題目:Rethinking group activity recognition under the open set condition
錄用期刊/會議:The Visual Computer (中科院SCI 3區,JCR Q2,CCF C)
原文DOI:https://doi.org/10.1007/s00371-024-03424-0
原文鏈接:https://link.springer.com/article/10.1007/s00371-024-03424-0
錄用/見刊時間:2024.5.13
作者列表:
1) 朱麗萍 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機系教師
2) 吳祀霖 中國石油大學(北京)信息科學與工程學院/人工智能學院 碩22
3) 常憲祥 中國石油大學(北京)信息科學與工程學院/人工智能學院 碩22
4) 楊逸萱 中國石油大學(北京)信息科學與工程學院/人工智能學院 碩22
5) 李 軒 中國石油大學(北京)信息科學與工程學院/人工智能學院 碩22
背景與動機:
群體行為識別旨在識別群體環境中的預定義人類活動類別。這些行為包括簡單動作和復雜互動,在體育和公共安全等領域有廣泛應用。然而,預定義類別在訓練過程中存在局限性,無法涵蓋所有現實世界的活動類型。
盡管現有的群體行為識別模型取得了重大進步,但在識別訓練數據中未包含的行為方面仍存在一個顯著的挑戰。圖1揭示了在群體識別任務中開集與閉集場景之間的差異,突出了在閉集環境下訓練的傳統模型在適應現實生活應用方面的局限性。在閉集場景中,模型基于一組固定的類別進行訓練,并假定所有遇到的行為都屬于這些預定義的類別之一。而在開集場景中,模型必須能夠識別那些在訓練數據中未出現過的行為,并將它們視為新穎或未知類別。因此,迫切需要設計一種能夠在開集環境下運作的群體行為識別模型,以克服傳統方法在處理未知類別時遇到的固有局限。在這種情況下,開集群體活動識別被定義為一個計算任務,其目標是識別和分類群體內的集體行為,特別是針對那些在訓練過程中未預定義的未知行為。這一創新方法旨在提高群體行為識別模型在動態多變現實環境中的適應性。
圖1 封閉集和開放集條件下群體行為識別的比較
設計與實現:
本研究提出的開集群體行為識別模型(OSGAR)旨在通過對視頻樣本進行不確定性估計,以確定其中群體活動的熟悉度。OSGAR方法主要利用嵌入的骨骼特征進行處理,采用兩階段的流程。首先,在Evidence Aware Collection(EAC)階段,從不同尺度提取語義特征,并生成多組證據值。隨后,在Evidence Aware Decision(EAD)階段,利用注意力機制有選擇地聚合這些證據,最終得到能夠有效區分已知和未知類別的不確定性結果。整體而言,OSGAR方法的目的在于應對視頻中群體活動的開放性判斷問題,通過有效利用骨骼特征提高判斷的準確性和泛化能力。OSGAR的整體架構如下圖2所示。
圖2 OSGAR的整體架構
首先本研究針對基于RGB的識別方法常見的背景噪聲問題提出了解決方案,即利用骨架數據進行人體動作識別。具體而言,先利用HRnet提取初始骨架信息,然后將關節類型、時間位置和空間位置等先驗信息嵌入到原始骨架中,生成每個個體的關節向量。這一過程利用拼接函數和前饋網絡結合GCN學習得到最終的關鍵點特征表示,公式描述如下:
其次在證據收集階段,要在在解決基于特征推斷對樣本不確定性估計的影響。該方法將群體活動分解為個體、子群體和整體三個尺度,然后利用證據感知收集方法從每個尺度收集證據特征。在個體水平,將骨架向量組合形成個體特征,并利用 Transformer 提取時間維度批次化的空間演化特征。在子群體水平,利用個體相似性劃分子群體,并利用 Transformer 提取子群體特征。最后,將個體特征和子群體特征合并,以獲得群體特征表示。在這些階段中,Transformer 編碼器結構都包含多頭自注意力機制,能夠捕捉同一尺度內不同個體之間的相關性表示,從而提高了模型的泛化能力,最終群體特征計算公式描述如下:
最終在證據融合階段針對前期收集的多尺度證據,利用注意力機制將其融合然后輸出樣本的不確定度信息,與閾值相比較判斷已知類別與未知類別的歸屬。
實驗結果及分析:
本文依照開集環境要求,對現有對Volleyball數據集以及CAD數據集進行了開集劃分如下表1所示。
表1 數據集開集分割方法
然后在V1-openset下與其他SOTA的對比結果如下表2所示。
表2 不同方法的比較
針對不同開集方法下,在兩種分割策略下最終預測結果的比較如下圖3所示。
圖3 使用不同的開放集識別方法預測得分的可視化比較
結論:
本文介紹了開放集群體活動識別的概念,并提出了一個名為OSGAR的框架,作為在實際場景中識別群體活動的解決方案。OSGAR模型在不同尺度上建模群體活動,增強了對群體行為的層次理解,突出了子群體的優勢。提出的兩階段方法,即證據感知收集和證據感知決策,聚合了來自不同尺度的證據,提供可靠的不確定性預測,有效應對了開放集場景的挑戰。此外,本文在現有數據集上進行了開放集劃分,并證明了提出的方法在區分已知和未知類別的同時保持高閉集識別能力方面表現良好??傮w而言,OSGAR框架為開放集環境中的群體活動識別做出了有價值的貢獻。
作者簡介:
朱麗萍,博士。中國石油大學(北京)信息科學與工程學院/人工智能學院計算機系副教授,碩士生導師。目前主要研究方向是大數據和數據挖掘方向,尤其關注深度學習在計算機視覺方向上的應用,已發表論文多篇高水平論文。
聯系方式:zhuliping@cup.edu.cn