中文題目:基于知識圖譜-文本的數據增強和虛擬對抗的中文專業領域命名實體識別
論文題目:Data Augmentation with Knowledge Graph-to-Text and Virtual Adversary for Specialized-Domain Chinese NER
錄用期刊/會議:International Joint Conference on Neural Networks (CCF C)
作者列表:
1) 胡思潁 中國石油大學(北京)人工智能學院 碩22
2) 王智廣 中國石油大學(北京)人工智能學院 計算機科學與技術系 教師
3) 張冰彬 中國石油大學(北京)人工智能學院 碩22
4) 王 天 中國石油大學(北京)人工智能學院 碩21
5) 劉志強 中國石油大學(北京)人工智能學院 碩23
6) 魯 強 中國石油大學(北京)人工智能學院 智能科學與技術系 教師
摘要:
中文命名實體識別在通用領域得到了很好的研究,但實際工程應用中更關注專業領域中的中文命名實體識別。然而,由于專業領域下標注數據稀缺,命名實體識別性能仍然欠佳。本文主要針對標注樣本稀缺問題進行了兩點改進,一方面,我們提出了Knowledge Graph Text Alignment with BART(KGTA-BART)作為全新的數據增強方法。與之前的研究相比,KGTA-BART首次引入從結構化和半結構化數據所提取的知識圖譜,將知識圖譜的圖信息與已標注文本數據的語義信息對齊,之后基于BART模型將知識圖譜生成高質量的語義文本,在標注數據稀缺時擴展數據集。另一方面,我們提出了Virtual Adversary with BART(VA-BART)命名實體識別模型。VA-BART模型結合BART作為編碼層,并將虛擬對抗應用在中文命名實體識別任務,在標注數據稀缺時更好地捕捉文本中的上下文信息,增強了模型對于未見過的樣本的泛化能力。實驗結果表明,基于KGTA-BART的VA-BART方法在我們的中文專業領域數據集中對比基線方法有實質性的改進。
背景與動機:
命名實體識別(NER)是一項重要的自然語言處理任務。中文命名實體識別(CNER)作為NER的一個重要子模塊,這些年來通過預訓練模型,研究者們常常專注于通用領域的CNER,然而在實際工程應用中,專業領域的CNER往往有著更重要的影響。通過專業領域CNER并用于關系抽取、問答系統、機器翻譯等任務,可以構建領域智能化系統,提高文本處理和語言理解的效果,幫助人們獲取領域知識。例如,石油煉化領域,從領域文檔中挖掘出有價值的信息和知識,對加快石油領域數字化轉型、智能化發展有著重要意義。但在進行這類專業領域的CNER時,目前主要面臨著標注數據稀缺的挑戰,導致命名實體識別性能欠佳。
設計與實現:
我們提出了數據增強方法KGTA-BART與中文命名實體識別模型VA-BART進行專業領域CNER任務。CNER任務的流程包括:
Step 1:KGTA-BART網絡架構。通過數據增強方法KGTA-BART進行模型訓練。
Step 2:數據增強文本生成。使用訓練完的模型對知識圖譜與文本對齊,并進行文本生成作為命名實體識別的增強文本。
Step 3:VA-BART中文命名實體識別模型。生成文本作為增強文本連同已標注文本作用于命名實體識別模型VA-BART,完成命名實體識別任務。
KGTA-BART網絡架構
圖1展示了KGTA-BART數據增強方法模型訓練的結構。圖1的(a)部分展示了向量表示對齊模塊。由于已標注文本中不僅包含了語義維度信息,同時可提取出圖維度信息。我們提出通過文本編碼器和圖編碼器可以分別獲取到文本維度和圖維度實體向量。為了彌合文本維度和圖維度間的差距,我們通過使用歐幾里德距離來模擬向量表示對齊。向量表示對齊能夠有效地將已標注文本中的文本信息和圖信息對齊。其為后續知識圖譜與文本對齊提供有力的幫助。
圖1的(b)部分展示了基于句式的掩碼補全模塊,我們結合BART模型,提出了一種基于掩碼句式的模型訓練方式,完成Maskfilling訓練。主要包括掩碼句式構建和句式文本生成訓練兩個部分。
圖1 KGTA-BART 數據增強方法模型訓練的概述
數據增強文本生成
在KGTA-BART訓練完之后,使用訓練完的模型進行文本生成,概述圖如圖2所示。在文本生成階段,首先將含圖信息的知識圖譜與含語義信息的已標注的文本中與知識圖譜標簽類型相同的文本進行編碼并基于相似度計算進行圖文對齊匹配相似度最高的文本,之后通過掩碼句式構建并基于BART生成句式文本,最后進行實體填充生成增強文本。
圖2 KGTA-BART 數據增強方法的文本生成概述
VA-BART中文命名實體識別模型
生成文本作為增強文本連同已標注文本作用于命名實體識別模型VA-BART。模型的主要結構如圖3所示,給定一個輸入句子,然后輸入到預訓練的BART模塊中。為了進一步增強上下文建模,在BART計算之后,采用雙向LSTM生成最終的單詞表示。最后使用條件隨機場進行token的預測。為了提高模型泛化性,參考虛擬對抗的機制,我們將其運用到了中文命名實體識別任務中。
圖3 VA-BART CNER 模型結構
中文專業領域數據集
由于現存的CNER公共數據集中基本都是通用領域的數據集,而一些專業領域的數據集例如中文醫學領域數據集中又沒有對應的由結構化和半結構化的信息中提取實體關系從而構建的知識圖譜。因此,為了落實實際應用以及檢驗我們方法的有效性,我們提出了石油煉化領域的標注數據集以及該領域從結構化和半結構化的信息中提取實體關系構建出來的知識圖譜。同時為了驗證模型的泛化性,我們對中文關系抽取數據集DuIE2.0進行篩選,將其中的實體類別進行細粒度劃分,最后形成娛樂領域標注數據集,并模擬了娛樂領域只含有圖信息的知識圖譜。兩個數據集的詳細信息如表1所示。
表1 數據集詳細信息
實驗結果及分析:
根據表2的結果,我們提出的基于KGTA-BART的VA-BART方法在石油煉化以及娛樂兩個中文專業領域的NER方法和數據增強方法層面上皆表現出卓越的效果。首先,在NER方法層面上,將一些預訓練模型作為基線,我們的命名實體識別模型相對于性能最佳的基線模型,在無增強數據條件下都獲得了最佳效果。此外,在數據增強的層面上,經過各種數據增強方法擴展的數據集均基于我們的VA-BART上進行命名實體識別,結果顯示我們提出的KGTA-BART數據增強方法也都獲得了最佳效果。
在對抗訓練層面上,我們基于未增強的數據比較各種基線的對抗訓練方式如表3,發現虛擬對抗在石油煉化領域和娛樂領域,它的F1值相比于性能最佳的對抗方式有著0.59和0.24的提升,這證明了虛擬對抗的有效性。
表2 實驗結果,從NER方法和數據增強方法層面驗證我們的方法的有效性
表3 實驗結果,從對抗訓練層面驗證我們的方法的有效性
結論:
我們提出利用從結構化和半結構化信息中提取的實體和關系,使用KGTA-BART數據增強方法創建用于文本生成的知識圖譜。此外,我們還開發了中文命名實體識別模型VA-BART,結合BART作為編碼層,并將虛擬對抗應用在中文命名實體識別任務,在標注數據稀缺時更好地捕捉文本中的上下文信息,增強了模型對于未見過的樣本的泛化能力。我們的大量實驗證明,在石油煉化和娛樂領域,中文命名實體識別的性能有了顯著提高。同時在未來,我們將在英文專業領域數據集上進行實驗,證明我們的方法同樣適用于其他語言數據。
作者簡介:
王智廣,教授,博士生導師,北京市教學名師。中國計算機學會(CCF)高級會員,全國高校實驗室工作研究會信息技術專家指導委員會委員,全國高校計算機專業(本科)實驗教材與實驗室環境開發專家委員會委員,北京市計算機教育研究會常務理事。長期從事分布式并行計算、三維可視化、計算機視覺、知識圖譜方面的研究工作,主持或承擔國家重大科技專項子任務、國家重點研發計劃子課題、國家自然科學基金、北京市教委科研課題、北京市重點實驗室課題、地方政府委托課題以及企業委托課題20余項,在國內外重要學術會議和期刊上合作發表學術論文70余篇,培養了100余名碩士博士研究生。