中文題目:面向疫情防控領域中文事件抽取
論文題目:Chinese Event Extraction for Epidemic Prevention and Control Domain
錄用會議:The 2024 Twentieth International Conference on Intelligent Computing (CCF C)
作者列表:
1) 李曉雪 中國石油大學(北京)人工智能學院 碩23
2) 王智廣 中國石油大學(北京)人工智能學院 計算機科學與技術系 教師
3) 劉志強 中國石油大學(北京)人工智能學院 碩23
4) 祝留宇 中國石油大學(北京)人工智能學院 碩23
5) 葛賽賽 中國石油大學(北京)人工智能學院 碩19
6) 魯 強 中國石油大學(北京)人工智能學院 智能科學與技術系 教師
摘要:
事件抽取是信息抽取的熱點研究內容,本文研究疫情防控領域的事件抽取任務,該任務研究中還存在很多問題,如當前沒有針對疫情防控領域事件的數據集;存在長觸發詞和多觸發詞情況導致機器出現漏抽、錯抽問題;事件論元分布不平衡影響抽取結果等。針對以上問題,該文首先構建了針對重大疫情防控事件的數據集EEPCD;接著提出基于依存句法分析的事件觸發詞抽取算法A-DPETE,該算法通過依存句法分析技術,使得模型在長觸發詞和多觸發詞抽取準確率上有了較大提升;最后構建了觸發詞特征嵌入的事件論元抽取模型EM-TFEEA,該模型將事件觸發詞抽取與事件論元抽取結合起來,同時使用分組抽取原則,提高了事件論元抽取的準確性。實驗結果表明,在 EEPCD 數據集和 ACE2005 中文數據集上,其效果優于傳統技術。在事件觸發詞抽取方面,準確率、召回率和 F1 值最大提高了6.0%;在事件論元抽取方面,這些指標最大提高了3.0%。
設計與實現:
1、A-DPETE算法的實現
在漢語中,我們可以觀察到一種普遍的語法現象,即各語言單位之間存在著支配和被支配、依存和被依存的關系。通過進行依存句法分析,我們可以更好地理解句子中各成分之間的語義修飾關系,同時獲取長距離的上下文信息。因此我們將使用依存句法分析技術進行觸發詞抽取算法設計。
通過對含多觸發詞事件句的分析可得到規則如下:
規則1:從詞性上看,如果核心詞是動詞,那么就將該觸發詞添加到觸發詞鏈。否則考慮與依存句法分析得到的核心詞并列的動詞。
規則2:如果某動詞與核心詞并列,但未與核心詞相鄰,則將該動詞添加到事件觸發詞鏈中。若與核心詞相鄰,則可考慮是否構成長觸發詞問題。
規則3:從詞性上看,如果核心詞不是動詞,同時也沒有與核心詞并列的動詞,那么該事件句就不會生成觸發詞鏈。
針對以上3個規則,可得出觸發詞鏈生成算法,如算法1所示。
通過對含長觸發詞事件句的分析可得到規則如下:
規則4:依存句法分析得到的核心詞如果沒有相鄰的動詞,那么不會構成長觸發詞。
規則5:如果核心動詞與相鄰動詞的句法依存關系是并列關系,那么將構成長觸發詞;否則,將不會構成長觸發詞。
規則6:如果核心詞詞性不是動詞,那么不會構成長觸發詞。
根據規則可以得到算法2。
2、EM-TFEEA模型的構建
圖3展示了觸發詞語義特征嵌入的事件論元抽取模型的總體結構圖。
模型的輸入是事件句加觸發詞的距離特征編碼。觸發詞的距離特征編碼定義為文本中所有字到觸發詞的相對距離,而觸發詞本身的距離編碼為0。觸發詞周圍的單詞成為事件論元的概率更大,因此模型加入觸發詞距離特征來輔助事件論元抽取任務。該模型主要包括四個部分:①預訓練層;②CLN層;③CRF層;④分類器層。
圖1 EM-TFEEA模型結構圖
(1)預訓練層:使用MacBERT預訓練模型提升對文本語義的理解能力,尤其是觸發詞與事件論元間的語義關系。
(2)條件層歸一化 (CLN):使用語義信息作為一個額外的條件,與詞向量一起輸入到神經網絡的輸入層中。在網絡的中間層中,使用 CLN進行歸一化,從而使得不同的語義信息可以自適應地學習到適合的歸一化參數。最后,可以將歸一化后的表示輸入到一個分類器或者序列標注模型中,用于抽取事件論元。
(3)條件隨機場 (CRF):在序列標注任務中使用CRF模型,定義不同事件類型的標簽集和標簽轉移矩陣,增強模型的泛化能力和準確性。
(4)分類器:本文使用兩個二分類器,將時間和地點作為一組,主體和客體作為一組,以降低事件論元分布不平衡對模型的準確率、召回率以及F1值的影響。
實驗結果及分析:
1、觸發詞抽取算法的實驗結果及分析
表1和表2顯示,本文提出的觸發詞抽取算法在EEPCD數據集和ACE 2005數據集上都表現良好。這是由于本文提出的抽取算法考慮了長觸發詞和多觸發詞的現象,對包含長觸發詞和多觸發詞的事件句進行了詳細的分析和理解,同時利用依存句法分析工具來更好地捕捉觸發詞之間的關系,并最大限度地減少它們的遺漏。
表1 ACE2005數據集上算法的指標對比結果
表2 EEPCD數據集上算法的指標對比結果
2、 事件論元抽取模型實驗結果及分析:
(1)對比實驗:
本文設置了對比實驗,在EEPCD數據集與ACE2005數據集上與其他主流算法對比。通過表3可以看出,本文提出的模型,在EEPCD數據集上無論是準確率、召回率還是F1值都有顯著提升;而在ACE 2005數據集上雖然召回率沒有提升,但在準確率和F1值上都明顯優于其他模型。
表3對比實驗結果
(2)消融實驗:
通過五組消融實驗,可以看到在面向疫情防控領域新聞數據集上,各個模塊對BERT-CRF模型都有提升效果,在使用MacBERT替換成BERT的同時加入CLN層,并使用論元分組抽取的策略,使本章模型得到了最大程度地提升。綜上所述,本章模型能有效地抽取事件論元。
表4 消融實驗結果
結論:
針對重大疫情防控事件缺乏數據集的問題,本文初步構建了一個專注于該領域的數據集。然后,針對事件句子中由于多觸發詞和長觸發詞的存在而導致的錯抽、漏抽問題,本文采用了一種基于依存句法分析的事件觸發詞抽取算法。最后,針對事件觸發詞和事件論元抽取任務分離以及事件論元分布不平衡導致的抽取精度低的問題,開發了一種嵌入觸發詞特征的事件論元抽取模型。實驗結果表明,所提出的方法應用于EEPCD數據集和ACE2005中文數據集,均優于傳統技術。事件觸發詞抽取的準確性、召回率和F1分數最高提高了6.0%,而事件論元抽取的這些指標最高提高了3.0%。這項工作可以輔助下游的知識圖譜構建任務,能更好地幫助公眾了解疫情發展趨勢,進行有效的預防。然而,就傳統觸發詞抽取的準確性以及觸發詞抽取結果對后續結果的影響方面,本文提出的方法尚待優化。今后的工作將側重于提高這些領域的效果。
作者簡介:
王智廣,教授,博士生導師,北京市教學名師。中國計算機學會(CCF)高級會員,全國高校實驗室工作研究會信息技術專家指導委員會委員,全國高校計算機專業(本科)實驗教材與實驗室環境開發專家委員會委員,北京市計算機教育研究會常務理事。長期從事分布式并行計算、三維可視化、計算機視覺、知識圖譜方面的研究工作,主持或承擔國家重大科技專項子任務、國家重點研發計劃子課題、國家自然科學基金、北京市教委科研課題、北京市重點實驗室課題、地方政府委托課題以及企業委托課題20余項,在國內外重要學術會議和期刊上合作發表學術論文70余篇,培養了100余名碩士博士研究生。