中文引用格式: 葛朔,鄒華,潘明明,等. 基于機器閱讀理解的電力安全命名實體識別方法[J]. 電子技術應用,2025,51(6):21-26.
英文引用格式: Ge Shuo,Zou Hua,Pan Mingming,et al. Named entity recognition method for power safety based on machine reading comprehension[J]. Application of Electronic Technique,2025,51(6):21-26.
引言
電力行業是整個國家的能源支撐[1],而電力安全檢查既是減少生產安全事故、保障生命財產安全的重要環節,也是國家電網公司人力成本重要支出環節。當前電力安全檢查領域知識以非結構化文檔形式存在,亟需建立統一的電力安全領域知識體系,而知識圖譜為構建知識體系的最佳手段[2]。因此,通過研究針對電力安全領域實體的命名實體識別方法,準確識別電力安全領域實體,并在此基礎上構建領域知識圖譜,對提升電力系統智能化自動化水平具有積極的意義。
當前許多學者對電力領域命名實體識別做了大量的研究,主要分為基于規則和字典的方法、基于統計機器學習的方法及基于深度學習的方法。曹靖等[3]與劉梓權等[4]通過構建電力領域專業詞典,將完成分詞的語料在詞庫中進行匹配以完成命名實體識別工作。然而,基于規則與詞典方法依賴于行業專家知識、可遷移性較差且需要不斷進行維護。邵詩韻等[5]利用條件隨機場模型完成電力工程標書中文本實體的識別,實現對關鍵內容的自動抽取;楊維等[6]采用條件隨機場模型從預料中識別出電力標準內容關聯的實體名。然而,基于統計學習的方法存在時間復雜度較高、難以對大規模樣本訓練的問題。馮斌等[7]將注意力機制結合雙向長短期網絡模型實現電力設備缺陷關鍵類型實體的提?。皇Y晨等[8]對通用BERT進行參數初置,解決對電力信息的自動挖掘問題。
近年來,許多研究聚焦于將Transformer方法應用于電力領域命名實體識別。顧亦然等[9]利用Transformer模型處理語料增強句子語義表示,解決電機領域中的實體識別問題;國網江蘇省電力公司[10]利用Transformer模型捕捉單詞之間的關系與上下文,但對電力專業領域的特點關注不足;徐曉軼等[11]在模型中引入Transformer編碼器機制,提升了模型在電力垂直領域的適應性。這些研究提升了在電力領域命名實體識別任務的效果,但在檢修規程等電力安全領域文本實體的實際分布中,存在大量嵌套實體等復雜實體,當前研究對該部分實體關注度不足,導致識別準確率受到影響。
為解決電力安全領域文本中的嵌套實體問題,本文提出了一種基于機器閱讀理解的命名實體識別方法。針對電力安全領域中存在大量嵌套實體的實際情況以及傳統基于機器閱讀理解方法對先驗知識利用不充分的問題,通過引入層次注意力機制的方法,對文本中的實體進行識別抽取,實現電力安全實體的精準識別。
本文詳細內容請下載:
http://www.xxav2194.com/resource/share/2000006557
作者信息:
葛朔1,鄒華1,潘明明2,王白根3
(1.北京郵電大學 計算機學院(國家示范性軟件學院),北京 100876;
2.中國電力科學研究院有限公司,北京 100192;
3.國網安徽省電力有限公司安慶供電公司,安徽 安慶 246000)