<meter id="hh1nh"></meter>
<th id="hh1nh"><em id="hh1nh"><delect id="hh1nh"></delect></em></th>

        <form id="hh1nh"></form>

          <listing id="hh1nh"><nobr id="hh1nh"></nobr></listing>
          <nobr id="hh1nh"></nobr>

            <th id="hh1nh"><form id="hh1nh"><font id="hh1nh"></font></form></th>
            <rp id="hh1nh"><progress id="hh1nh"></progress></rp>
            您所在的位置:首頁 - 科學研究 - 科研動態

            科研動態

            背景減法的視覺語言對齊

            中文題目:背景減法的視覺語言對齊

            論文題目:Visual-Language Alignment for Background Subtraction

            錄用期刊/會議:IEEE International Conference on Multimedia & Expo (CCF B)

            作者列表

            1) 劉葭荷 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機科學與技術 研22

            2) 朱丹丹 中國石油大學(北京)信息科學與工程學院/人工智能學院 計算機系副教授

            3) Sajid Javed 哈利法大學 計算機科學學院 計算機科學 助理教授

            摘要:

            背景減法(BGS)是視頻分析中的一項基本任務,對許多應用場景都至關重要。盡管開發了各種方法來解決移動物體的識別問題,但在面對現實世界中固有的復雜挑戰時,目前的技術還遠遠不夠。持續存在的兩個挑戰是動態背景的存在,其中環境背景不斷變化,以及相機抖動,這會給場景帶來不穩定的運動。在計算機視覺領域,本文首次引入了為BGS任務設計的視覺語言模型,利用語言和視覺信息的集成,在背景減法的背景下增強對復雜場景的理解和解釋。本研究的模型已經在廣泛的CDNet-2014數據集中的三個類別中進行了嚴格的測試,結果表明平均F值為0.9771,突出展示了模型的熟練程度。這項研究為BGS提供了一個新的視角和新穎的解決方案,特別是在復雜的視頻場景中。

            設計與實現:

            本文工作的主要貢獻在于引入了一種專門為背景減法任務設計的新穎視覺語言模型。受多模態跟蹤變壓器(Multimodal Tracking Transformer, MTTR)在目標分割領域成功應用的啟發,我們認識到其強大的時空特征學習和多模態信息融合能力,為背景減除任務提供了一種新的解決方案。與傳統的背景減除方法不同,本研究使用的模型通過理解視頻內容和相關文本描述之間的關系,可以更準確地識別和分割視頻序列中動態前景對象,特別是在復雜場景和動態背景下。模型集成了深度學習的最新進展,訓練了一個能夠理解視頻內容和語言指令的視覺語言模型,實現了視頻幀中前景和背景的精確分割。實驗結果表明,將該模型應用于背景減除任務時,與現有技術相比,不僅提高了分割精度,而且提高了對相機抖動和動態背景的適應性。這項研究為視頻分析和處理領域提供了一個新的工具,展示了視覺語言模型在理解復雜視頻內容方面的巨大潛力。

            MTTR模型結合深度時空編碼和Transformer技術,對視頻和文本的多模態數據進行有效處理,其總體結構如圖所示。



            首先,該模型采用改進版的Video Swin Transformer作為時空編碼器,從視頻序列中精確提取豐富的視覺特征。這種增強通過調整時間下采樣層來實現,為每個視頻幀生成詳細的特征映射,使模型能夠捕獲動態信息和復雜的細節。同時,使用基于Transformer的文本編碼器RoBERTa從文本查詢中提取語言特征。這些特征被線性投影,以便與同一維度空間中的視頻特征對齊,以便后續集成。

            特征提取完成后,MTTR模型使用多模態Transformer進一步處理這些特征。通過其編碼器和解碼器結構,該Transformer實現了視頻和文本功能的深度集成,利用自關注機制來探索不同模式之間的關系,并為每個對象實例生成獨特的序列。在此過程中,視頻中的視覺信息和文本中的語言信息被有效融合,為后續的分割任務提供了堅實的基礎。

            隨后,MTTR模型采用類似于FPN的空間解碼器和動態生成的條件卷積核對實例序列進行空間解碼,為每個實例生成分割掩碼。這些動態生成的核根據Transformer解碼器的輸出進行調整,適應不同實例的不同特征,以產生高質量的分割結果。為了精確識別與文本查詢最匹配的序列,該模型采用基于成本的匹配策略,通過簡單的線性層和匈牙利算法計算每個序列的關聯分數,準確選擇目標實例序列。

            在訓練過程中,MTTR模型利用匹配損失、Dice損失和Focal損失的組合,通過端到端訓練方法優化模型的性能。這種全面的損失函數設計不僅有利于模型學習基于文本描述的視頻對象分割,而且省去了額外復雜的后處理步驟,顯著提高了RVOS任務的效率和準確性。通過這些創新設計,MTTR模型不僅在處理多模態任務方面表現出卓越的性能,而且顯著簡化了處理工作流程,展示了深度學習技術在視頻理解和自然語言處理領域的巨大潛力。

            主要內容:

            為了有效地將多模態跟蹤變壓器(Multimodal Tracking Transformer, MTTR)模型應用于背景減除任務,本研究對數據集格式進行了具體調整。這些調整主要體現在標簽的處理和額外文本信息的添加上。

            在對象分割任務中,數據集通常包含多個實例值,以區分圖像中的單個對象實例。然而,背景減法的目標是識別與背景相反的所有動態前景物體。因此,在背景減法任務中,我們簡化了數據集標簽,使用單個標簽值來表示前景。具體來說,所有前景對象的像素標簽統一設置為255,而背景對象的像素標簽設置為0。這種標簽處理方法簡化了模型的學習目標,使其能夠專注于將視頻幀中的前景與背景分開。

            更重要的是,如圖所示,為了充分利用MTTR模型的多模態特性,我們手動為每個視頻添加視頻標題,作為文本查詢的一部分。這些視頻標題簡潔地描述了視頻內容,如“汽車在高速公路上行駛”。通過將這些描述性文本信息與視頻幀一起輸入到模型中,MTTR可以更準確地理解視頻內容,從而提高區分背景和前景的精度。視頻標題的加入不僅豐富了數據集的信息內容,而且為模型提供了額外的語義層,有助于提高背景減除任務的性能。



            綜上所述,對數據集格式的調整和視頻標題的增加為本研究的背景減除任務提供了必要的數據支持,使MTTR模型能夠更有效地處理視頻數據,實現更準確的前景分割。

            實驗結果及分析:

            本研究的實驗基于CDNet-2014數據集,重點評估提出的視覺語言模型在處理背景減法任務方面的性能。CDNet-2014數據集包括11個類別的53個自然場景視頻,涵蓋了一系列具有挑戰性的場景。為了深入分析模型的性能,特別選擇了三個具有代表性的場景類別進行實驗:“基線”、“動態背景”和“相機抖動”。這些類別包括背景減法中的常見挑戰,例如處理靜態和動態背景以及由攝像機運動引起的視頻幀變化。

            在“基線”、“動態背景”和“相機抖動”類別中,模型表現出了卓越的性能。在基線類別中,它獲得了0.9743的顯著F-Measure,證明了它在區分動態前景元素和靜態背景方面的卓越能力。在動態背景的挑戰下,該模型的F-Measure值達到0.9757,強調了它在識別移動的前景和背景元素方面的能力。即使在相機抖動引入的擾動下,模型仍保持其魯棒性,F-Measure為0.9793??偟膩碚f,這些結果在0.9764的總體F測量值中達到最高,肯定了模型在不同和具有挑戰性的場景中的一致性和可靠性。

            在背景減法模型的對比評價中,提出的MTTR模型在所有測試場景中都表現出優異的性能。具體而言,在基線類別中,MTTR的F-Measure值為0.9762,高于DeepBS、IUTIS-5、PAWCS和SuBSENSE。對于有相機抖動的場景,MTTR模型的F-Measure為0.9757,再次優于其他模型,在動態背景條件下,它也表現出類似的優勢,F-Measure為0.9793??偟膩碚f,MTTR模型的平均F-Measure值為0.9771,突出了其在處理復雜視頻背景方面的魯棒性和有效性,肯定了其在背景減法領域的先進地位。





            結論:

            這項研究首次將傳統上與對象分割相關的多模態跟蹤變壓器(MTTR)模型應用于視頻背景減法領域,展示了視覺語言模型的擴展能力。MTTR對背景減法挑戰的適應在CDNet-2014數據集的三個不同且具有挑戰性的視頻類別中展示了典型的性能,特別是在基線、相機抖動和動態背景場景中。

            在MTTR框架內將深度學習與自然語言處理相結合,顯著提高了模型從復雜背景中分割前景元素的熟練度。針對已建立的數據集進行基準測試的研究結果突出展示了MTTR模型的魯棒性和準確性,超越了傳統方法,特別是在易受動態變化和相機運動影響的環境中。

            雖然MTTR模型已經顯示出有希望的結果,但它在背景減法中的應用仍處于起步階段,還有很大的潛力有待探索。未來的研究將受益于在CDNet-2014數據集中更廣泛的視頻類別中測試MTTR模型,以充分確定其有效性和穩健性。此外,將視覺語言模型的應用擴展到更廣泛的視頻分析任務,如事件檢測和活動識別,代表了一個重要的研究途徑,有望推進當前的技術水平。

            綜上所述,將MTTR模型應用于背景減除任務不僅提供了一種新的方法,而且為視頻分析領域提供了一個新的維度。預計未來的研究將繼續這一軌跡,進一步推進對視頻內容在不同和具有挑戰性的背景下的理解和處理。

            作者簡介:

            朱丹丹,博士,中國石油大學(北京)信息科學與工程學院/人工智能學院副教授,碩士生導師。目前主要研究方向是強化學習和數據挖掘。

            聯系方式:zhu.dd@cup.edu.cn

            99亚洲综合精品