MKML: 用于零樣本常識問答的多知識元學習算法-科研動態-中國石油大學（北京）人工智能學院

學校主頁

您所在的位置：首頁 - 科學研究 - 科研動態

科研動態

MKML: 用于零樣本常識問答的多知識元學習算法

日期：2024-12-30 | 訪問量：

中文題目：MKML: 用于零樣本常識問答的多知識元學習算法

論文題目：MKML: Multi-Knowledge Meta-Learning Algorithm for Zero-shot Commonsense Question Answering

錄用期刊/會議：計算機工程與應用(CCF-T2類期刊/北大核心/EI檢索)

錄用/見刊時間：2024年12月3日

作者列表：

1）楊浩杰中國石油大學（北京）人工智能學院計算機技術碩22

2）魯強中國石油大學（北京）人工智能學院智能科學與技術系副教授

摘要:

零樣本常識問答要求模型能回答未見過的問題。目前多數研究者都將知識圖譜作為常識知識進行注入，但是當知識圖譜與目標數據集在領域上幾乎沒有重疊時，不管是增加知識圖譜種類還是增加圖譜內的三元組數量，都難以有效提升模型在目標數據集上的問答能力。為解決這些不足，該文提出一種用于零樣本常識問答的多知識元學習算法MKML。該方法通過訓練不同的知識適配器（KG-Adapter）以分別將多個知識圖譜注入預訓練模型，并通過構建元混合專家模塊（Meta-MoE）融合這些適配器中的知識。同時，為了增強模型根據自身知識回答未知目標領域問題的能力，MKML通過構建多源元學習方法更新Meta-MoE參數，以幫助模型獲取共享的知識結構分布信息，并使其擁有根據問題提示識別未知領域知識分布的能力，從而快速適應目標數據集。多個常識問答數據集上的實驗結果表明，與現有的八個基線方法相比，MKML在零樣本常識問答方面擁有更高的準確率。

背景與動機:

零樣本常識問答能幫助模型在無標注數據情況下理解并回答新領域問題，具有回答不同領域問題的泛化能力?，F有的零樣本常識問答方法主要是通過對已有的知識圖譜進行數據擴增，以增強問答模型的泛化能力。但是當目標數據集和模型內部知識的分布差異較大時，在知識圖譜數目有限的情況下，依靠現有方法難以有效縮小這種分布差異，反而會使訓練成本急劇增加。因此為進一步減小上述分布差異，本文提出了一種用于零樣本常識問答的多知識元學習算法MKML（Multi-Knowledge Meta-Learning）。

設計與實現:

多知識元學習算法MKML的整體流程如圖1所示。該流程主要分為兩階段：（1）模塊預訓練：將K個知識圖譜轉化為K個合成問答數據集，再利用這K個合成問答數據集對K個知識適配器（KG-Adapter）進行預訓練（如圖1 階段①所示）；（2）多源元學習：構建多源元學習算法對元混合專家模塊（Meta-MoE）進行訓練（如圖1 階段②所示）。MKML的訓練細節則如圖2所示。

圖1 MKML整體流程

圖2 MKML訓練過程

實驗結果及分析:

由知識圖譜轉化而來的合成問答數據集的相關統計信息如表1所示。

表1 合成問答數據集統計

MKML與六個基于RoBERTa-Large的基線方法作了對比，在a-NLI、PIQA和WG上都取得了高于這些基線方法的效果（表2）。MKML與大模型相比依舊有突出優勢（表3），但是與監督學習的方法相比則有比較明顯的劣勢（表4）。

表2 與基于RoBERTa-Large的基線方法的對比實驗結果

表3 與基于大模型的基線方法的對比實驗結果

表4 與監督學習方法的對比實驗結果

我們對MKML進行了相關的消融實驗，結果如圖3所示?？梢园l現，MoE-Gate對整體的影響最大。

圖3 消融實驗結果

為了探究不同知識圖譜組合對模型零樣本推理能力的影響，本文做了進一步的消融實驗。三源知識元學習（表5）和二源知識元學習（表6）的實驗結果表明，隨著可用知識圖譜數量的減少，模型的平均準確率也會下降。本文還將MKML分別在三個和兩個知識圖譜上做元學習消融（圖4，其中正值表示元學習消融后準確率提升，負值則表示元學習消融后準確率降低）。

表5 三源知識元學習實驗結果

表6 二源知識元學習實驗結果

圖4 元學習消融前后準確率變化（知識源數量減少）

然后我們對MKML進行了調參分析，對KG-Adapter瓶頸維度、Meta-MoE瓶頸維度、多專家模塊混合層層數對模型的準確率影響進行了實驗對比，分別如表7、表8和圖5所示。

表7 KG-Adapter瓶頸維度對準確率的影響

表8 Meta-MoE瓶頸維度對準確率的影響

圖5 多專家模塊混合層層數對模型準確率的影響

進一步地，為探究模型的時間復雜度受哪些因素影響，我們對模型輸入長度、模型層數、KG-Adapter數目以及Meta-MoE本身對模型的推理時間影響進行了實驗分析，結果如圖6和圖7所示?？梢钥闯?，這些因素都起著正向作用。我們還將MKML的推理時間與相關基線模型作了比較（表9）。

圖6 輸入長度與模型層數對推理時間的影響

圖7 KG-Adapter數目及Meta-MoE本身對模型推理時間的影響

表9與基于RoBERTa-Large的基線方法的推理時間對比

表10則是相關數據集的樣例分析。

表10 a-NLI、PIQA、WG的樣例分析

結論:

本文提出了一種用于零樣本常識問答的多知識元學習算法MKML。MKML在預訓練模型基礎上添加了多專家模塊混合層。該層包括對應于不同知識圖譜的多個知識適配器（KG-Adapter），以及元混合專家模塊（Meta-MoE）。MKML的整個訓練過程分為模塊預訓練和多源元學習兩個階段，使模型在學習了足夠常識知識的同時，具備快速識別未知目標數據集知識分布的能力。本文在三個常識問答數據集和四個知識圖譜（ConceptNet、Wikidata、WordNet和ATOMIC）上進行了廣泛的實驗，證明了MKML通過集成多知識圖譜能顯著提升問答模型的零樣本能力。

通訊作者簡介:

魯強：副教授，博士生導師。目前主要從事演化計算和符號回歸、知識圖譜與智能問答、以及軌跡分析與挖掘等方面的研究工作。

聯系方式：luqiang@cup.edu.cn