中文題目:基于思維擴散鏈的可解釋視覺問答模型
論文題目:An Explainable Vision Question Answer Model via Diffusion Chain-of-Thought
錄用期刊/會議:The 18th European Conference on Computer Vision ECCV 2024 (CCF-B類會議/CAAI-A類會議)
作者列表:
1)盧春昊 中國石油大學(北京)人工智能學院 人工智能 碩23
2)魯 強 中國石油大學(北京)人工智能學院 智能科學與技術系副教授
3)Jake Luo University of Wisconsin Milwaukee Department of Health Informatics and Administration Associate Professor
摘要:
在復雜視覺問答場景下,由于問題與答案之間的語義距離較遠,vc僅針對最終生成的答案作解釋,并不能有效縮短問題與答案之間的語義距離。為緩解此語義偏差問題,本文提出一種擴散思維鏈模型(VQA-TD)來實現視覺問答的推理過程。該模型由內外部兩擴散過程組成,其中外部擴散過程用來生成每步推理的解釋;內部擴散過程用來描述問題向每步解釋遷移的概率。通過在ScienceQA數據集上的實驗表明,該擴散思維鏈模型以GPT3.5的1%參數量,在答案準確率和解釋文本生成質量上全面超過GPT-3.5;在部分子任務上,已接近或超過GPT-4、Llama等模型。
背景與動機:
為了提升視覺問答(VQA)任務結果輸出的可解釋能力,現有研究主要采用解釋生成法、原型網絡法和局部可解釋方法來對答案作解釋。上述方法雖然有效,但這些解釋均是在得到答案后而再生成的,且無法進行逐步解釋。而在復雜VQA場景中,圖像及問題與答案之間語義距離會更遠,答案預測的精度也會降低,進而影響解釋文本生成的質量。為緩解此問題,本文認為VQA是先經過逐步推理后再得到答案的過程,故提出了擴散思維鏈模型以實現逐步推理。
設計與實現:
擴散思維鏈模型(VQA-TD)總體框架如圖1所示。首先,VQA-TD構建了語義嵌入,語義對齊和推理解釋模塊(如圖1a所示)。然后,它利用推理解釋模塊實現內外部擴散過程。具體操作如下:(1)外部擴散:構造了各解釋文本之間的遷移概率:以縮短各個解釋之間的語義距離(如圖1a所示);(2)內部擴散:構造了問題及圖像與解釋文本遷移概率:
來縮短每一解釋與問題及圖像之間的語義距離(如圖1d及圖1e所示)。
圖1 擴散思維鏈模型(VQA-TD)
實驗結果及分析:
在ScienceQA數據集上的對比實驗表明,VQA-TD以GPT-3.5的1%參數量,在答案準確率和解釋文本生成質量上超過GPT-3.5;在部分任務上接近或超越Llama以及GPT-4。
表1 對比試驗結果(NAT:自然科學;SOC:社會科學;LAN:語言科學;TXT:文本提示;IMG:圖像提示;NO:無提示;G1-6:1-6年級題目;G7-12:7-12年級題目)
圖2 預測答案準確率對比結果
表2 解釋文本生成的質量對比(雙語評估&召回率)
圖3 解釋文本生成的質量對比(雙語評估&召回率)
VQA-TD的突出性能主要歸功于內外部兩擴散過程。這兩個擴散過程通過多個擴散和恢復步驟逐步逼近并鏈接長解釋文本中的語義信息,以此降低圖像及問題到答案之間的語義偏差。
表3 不同提示輸入對模型性能的影響
(a)解釋文本生成的質量對比 (b)答案預測準確率對比
本文針對四種提示數據的輸入情況進行了消融實驗。實驗結果表明,當同時輸入兩種提示類型數據時,模型輸出的結果明顯好于其它提示類型輸入的情況(如表3所示)。
結論:
本文提出了一種新的VQA算法框架——擴散思維鏈模型(VQA-TD)。我們通過構建擴散思維鏈模型,實現了從問題到答案的逐步推理過程。該模型由內外部兩個擴散過程組成,即通過外部擴散捕獲推理步驟之間的聯系;通過內部擴散生成每一推理步驟的解釋。實驗結果表明,即使是在模型較小的情況下,VQA-TD仍能有效緩解復雜問題中的語義偏移問題,提升了答案預測精度,并能夠生成質量更好的解釋文本。
通訊作者簡介:
魯強:副教授,博士生導師。目前主要從事演化計算和符號回歸、知識圖譜與智能問答、以及軌跡分析與挖掘等方面的研究工作。
聯系方式:luqiang@cup.edu.cn