中文題目:面向全球含油氣盆地知識圖譜和文檔的混合問答方法
論文題目:Hybrid Q&A Method for Knowledge Graph and Documents of Global Petroliferous Basins
錄用期刊/會議:油氣田勘探與開發國際會議(IFEDC)(EI)
原文DOI:doi.org/10.1007/978-981-97-0272-5_21
作者列表:
1)季廷雨 中國石油大學(北京)人工智能學院 計算機技術 碩20
2) 李大偉 中國石油勘探開發研究院 高級工程師
3) 袁明才 中國石油大學(北京)人工智能學院 計算機科學與技術 碩21
4) 牛 敏 中國石油勘探開發研究院 二級工程師
5) 米石云 中國石油勘探開發研究院 企業級專家
6) 安笑予 中國石油勘探開發研究院 助理工程師
7) 王 芬 中國石油大學(北京)人工智能學院 計算機技術 碩21
8) 魯 強 中國石油大學(北京)人工智能學院 智能科學與技術系 教師
摘要:
勘探開發形成的海量含油氣盆地數據和文檔非常寶貴,需要利用新技術對其進行深層次挖掘利用,為勘探開發提供數據支撐和決策依據。知識圖譜能夠對這些數據和文檔中蘊含的知識進行很好整合,然而它的概念及關系依賴人工建設,導致其覆蓋的知識領域范圍有限。傳統的問答方法能根據問題在文檔中獲取相關答案,其具有知識覆蓋面廣的特點,但是它難以理解專業領域內容,導致其在含油氣盆地領域的準確率偏低。針對以上問題,本文構建了一套面向含油氣盆地知識圖譜和文檔的混合問答方法,將含油氣盆地知識圖譜作為專業背景知識庫,并從文檔資料中獲取與專業相關的知識內容。其中,針對含油氣盆地知識圖譜,分析問句并與知識圖譜進行實體對齊,將問句轉換為結構化的圖數據庫查詢語句并獲取答案;針對含油氣盆地文檔資料,構建語義索引庫,并根據問句檢索得到候選文檔,利用知識圖譜嵌入方法將圖譜信息與文檔信息進行融合,構建深度語義匹配算法從候選文檔中推理得到答案;針對兩種問答方法得到的候選答案,設計重排序算法衡量答案與問題的語義匹配程度,對候選答案列表進行排序與展示。與傳統問答方法相比,本方法支持面向含油氣盆地知識圖譜及相關文檔的專業問答場景,提高了用戶知識查詢效率,在保證檢索準確率的同時增加了查全率,最終提升了答案準確率。該方法具有操作方便、交互性強、答案精準等特點,為含油氣盆地研究提供了知識的深度共享和應用平臺。
設計與實現:
面向含油氣盆地知識圖譜和文檔的混合問答方法總體框架如圖1所示。具體流程為:(1)為大量文檔內容構建全文索引和語義索引,根據問題檢索得到候選段落,候選段落數量一般由人工設定為5-10個,通過圖嵌入的方式將知識圖譜信息與文檔信息進行融合,然后采用深度語義匹配模型從候選段落中獲取答案;(2)以含油氣盆地知識圖譜作為查詢基礎,分析自然語言問題并轉化為圖譜中存在的查詢結構,在圖譜中進行知識匹配從而獲取答案;(3)采用答案重排序算法衡量問題與以上所有候選答案的語義匹配程度,集成為一個完整準確的答案列表。
圖1 方法框架
圖2 圖嵌入示例
圖3 知識圖譜與文檔信息融合
圖嵌入如圖2所示,將知識圖譜中的實體和關系映射到高維向量空間。而知識圖譜與文檔信息的融合如圖3所示。通過將知識圖譜中實體“渤海灣盆地”“18×106~22×106t/km2”“3.7℃/100m”等表示與段落表示中的對應詞的表示進行融合,增強了段落語義信息。其中,首先分析問句得到含油氣盆地知識圖譜中的對應子圖;然后通過預先訓練好的TransE嵌入模型得到問題對應知識圖譜中實體的向量表示;最后使用自注意力機制融合編碼文本段落信息和實體信息,從而得到更新后的段落表示。
深度語義匹配模型的結構如圖4所示。首先,將問句和候選段落利用BERT預訓練語言模型進行聯合嵌入,獲得的編碼向量中融合了上下文的語境信息;然后,將編碼序列首位[CLS]標記對應的向量作為聚合序列表示,訓練分類器判斷在該段落中問題是否存在答案;對于段落中不存在答案的情況,直接將答案設為空值;對于段落中存在答案的情況,利用序列標注模型進行詞級別預測,確定答案在段落中的起止位置,抽取出對應的文本子序列作為答案。
圖4 深度語義匹配模型
另外,本文提出的混合問答方法中集成了知識圖譜嵌入的文檔問答方法和基于知識圖譜的推理問答方法。如圖5所示,通過設計重排序算法,將兩種問答方法的結果進行融合,最后按照匹配度獲取已排序的答案列表。
圖5 答案重排序
實驗結果及分析:
表1 檢索數據集
表2 問答數據集
表3 檢索效果對比
表4 重排序實驗結果
表5 SQuAD2.0數據集實驗結果
表6 含油氣盆地數據集實驗結果
表7 混合問答方法在含油氣盆地數據集實驗結果
本文方法在全球含油氣盆地領域的問答準確率達到84.38%,召回率達到85.95%,與單一的知識圖譜問答和文檔問答效果相比均有較大程度的提升,由此驗證了混合問答方法的有效性。
結論:
本研究面向全球含油氣盆地知識圖譜與文檔庫設計并實現了一種混合問答方法,主要包括知識圖譜嵌入的文檔問答方法、圖譜和文檔答案的綜合排序方法兩部分。通過對問句進行語義分析,從知識圖譜中匹配得到對應子圖并推理得到候選的節點答案,然后將圖譜信息與語義檢索得到的候選段落信息融合并推理得到候選的文本答案,最后利用重排序算法將所有候選答案進行排序,生成答案列表。
本研究分別針對檢索、問答和重排序三個方面展開了實驗。通過實驗分析可得:本文提出的混合問答方法能夠改進候選文檔的檢索方式,提高整體查全率;能夠擴大含油氣盆地知識領域范圍,同時支持面向含油氣盆地知識圖譜和文檔庫的兩種專業問答場景;與傳統問答方法相比,提升了全球含油氣盆地領域的問答準確率。因此,本文研發的方法不僅提升了全球含油氣盆地領域的問答效果,提高了盆地研究成果的共享水平和效率,還為研究人員提供了更好的勘探開發知識服務能力。此外,由于實驗中發現本方法在領域數據集上的準確率低于公開數據集,因此加強模型對專業領域的適應性研究是下一步的工作重點。
通訊作者簡介:
魯強,副教授,博士生導師。目前主要從事演化計算和符號回歸、知識圖譜與智能問答、以及軌跡分析與挖掘等方面的研究工作。聯系方式:luqiang@cup.edu.cn