《電子技術應用》
您所在的位置:首頁 > 電源技術 > 設計應用 > 基于規則和詞典的用電安全領域命名實體識別
基于規則和詞典的用電安全領域命名實體識別
2022年電子技術應用第12期
袁金斗1,潘明明1,張 騰2,姜 玨1
1.中國電力科學研究院有限公司,北京100192;2.國網江蘇省電力有限公司,江蘇 南京210000
摘要: 在用電安全領域,存在著大量數據、知識未得到充分挖掘和利用,構建領域知識圖譜不僅可以實現用電安全知識的整合,還能極大地提高電力行業的工作效率。命名實體識別是構建知識圖譜的基礎性工作,研究了基于字典和規則的命名實體識別,通過領域實體詞典、構詞特征字符規則匹配和詞性組合特征規則匹配三種方法從非結構文本中準確地提取用電安全相關實體,為用電安全領域知識圖譜的構建提供高質量和高精度的實體。為優化識別流程、提高響應速度,將通用詞性標注任務交由邊緣節點進行處理,中心服務器僅需響應規則模板匹配等任務。在小規模測試實驗中,綜合使用三種方法對用電安全文本進行領域實體識別,F1值能達到85%以上。
中圖分類號: TP391.1
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.223323
中文引用格式: 袁金斗,潘明明,張騰,等. 基于規則和詞典的用電安全領域命名實體識別[J].電子技術應用,2022,48(12):22-27.
英文引用格式: Yuan Jindou,Pan Mingming,Zhang Teng,et al. Electricity safety domain named entity recognition based on rules and dictionaries[J]. Application of Electronic Technique,2022,48(12):22-27.
Electricity safety domain named entity recognition based on rules and dictionaries
Yuan Jindou1,Pan Mingming1,Zhang Teng2,Jiang Jue1
1.China Electric Power Research Institute,Beijing 100192,China; 2.State Grid Jiangsu Electric Power Co.,Ltd.,Nanjing 210000,China
Abstract: In the field of electricity safety, there are a lots of data and knowledge has not been excavated and utilized, constructing a knowledge graph in the electricity safety field can not only integrate power knowledge, but also greatly improve the efficiency of the power industry. Named entity recognition(NER) is the basis for constructing knowledge graph, this paper studies the named entity recognition based on dictionaries and rules, through three methods: the domain entity dictionary, the word-building feature character rule matching and the part-of-speech combination feature rule matching,to accurately extract electricity safety related entities from non-structured text, providing high-quality and high-precision entities for the construction of knowledge graph in the field of electricity safety. In order to optimize the recognition process and improve the response speed, the general part-of-speech tagging task is sent to the edge node for processing, and the central server processes the rule template matching task. Experimental results show that using the three methods comprehensively to recognition the domain entity of small-scale electricity safety text, the F1 score can reach more than 85%.
Key words : electricity safety domain;NER;domain dictionary;featured character rules;part-of-speech combination rules

0 引言

    命名實體識別[1-3](Named Entity Recognition,NER)在通用領域中主要是指識別文本中的人名、地名、機構名、時間、貨幣等具有特定意義的實體。目前,命名實體識別的主要方法包括三類:基于規則[4]和詞典[5-6]的方法、基于統計機器學習的方法[7]和基于深度神經網絡的方法[8]

    目前,用電安全領域缺乏權威數據集[9],命名實體識別研究工作首先需要對語料集進行序列標注,標記非結構文本中的相關實體、無關字符、詞性序列等,在此研究背景下,采用統計機器學習、深度神經網絡的方法較難獲取大規模的訓練語料集。因此,本文主要基于規則和詞典的方法對實體命名識別進行第一階段研究,發掘用電安全領域實體構詞規則及詞性特征,構建領域詞典及規則模板,進一步擴充語料庫,為后續用電安全領域命名實體識別的機器學習、神經網絡方法的研究奠定基礎。

    從技術角度分析,如果構建的領域詞典能夠覆蓋待識別文本中絕大多數相關實體,那么,基于詞典的命名實體識別方法將具有高準確度及高響應度。但是,領域實體的多樣性、復雜性、衍生性導致構建覆蓋全面的高質量詞典較為困難。因此,基于詞典的方法通常是基于規則方法的輔助補充手段[10]。基于規則的實體命名識別多采用人工歸納并構造規則模板,選用特征包括標點符號、關鍵字、指示詞和方向詞、位置詞(如前后綴)、中心詞等,以規則模板的正則匹配為主要手段[11]。當語料規模不大且提取的規則能比較精確地反映語言現象時,基于規則和詞典的方法其性能要優于基于統計的方法[12]

    另一方面,物聯網設備和數據的爆發式增長,使得基于云計算模型的聚合性服務逐漸顯露出其在實時性、網絡制約、資源開銷等方面的不足。為彌補集中式云計算的不足,本文采用邊緣計算架構,其優勢在于能夠在數據產生側快捷、高效地響應業務需求,減小服務對網絡的依賴,在離線狀態下也能夠提供基礎業務服務。




本文詳細內容請下載:http://www.xxav2194.com/resource/share/2000005035




作者信息:

袁金斗1,潘明明1,張  騰2,姜  玨1

(1.中國電力科學研究院有限公司,北京100192;2.國網江蘇省電力有限公司,江蘇 南京210000)




wd.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 亚洲小说图片区| 国产乱理伦片在线观看播放| 两腿之间的私密图片| 欧美人妻精品一区二区三区| 午夜精品久久久久久久99热| 国产三级毛片视频| 大学生美女特级毛片| 久久99精品久久久久久水蜜桃| 欧美在线性爱视频| 你是我的城池营垒免费观看完整版| 试看120秒做受小视频免费| 国产精品成在线观看| www.91av| 无码无套少妇毛多18PXXXX| 亚洲一本之道高清乱码| 爱情岛论坛亚洲永久入口口| 国产AV国片精品有毛| 五月天婷婷精品视频| 在线看片人成视频免费无遮挡| 中文字幕亚洲综合久久| 日韩电影中文字幕在线观看| 亚洲欧美日韩自偷自拍| 精品日韩一区二区三区视频| 国产国产人免费视频成69大陆| 2021国产果冻剧传媒不卡| 夫妇交换4中文字幕| 中文字幕在线观| 日韩在线视频线视频免费网站| 亚洲成人app| 玩弄放荡人妻少妇系列视频| 四虎国产精品永久在线| 高清色黄毛片一级毛片| 国产精品对白刺激久久久| aⅴ精品无码无卡在线观看| 成人午夜视频免费| 久久天天躁日日躁狠狠躁| 欧美亚洲国产精品久久第一页| 免费大片av手机看片| 美女把屁屁扒开让男人玩| 国产在线无码精品电影网| 青青操在线免费观看|