《電子技術應用》
您所在的位置:首頁 > 電源技術 > 設計應用 > 基于規則和詞典的用電安全領域命名實體識別
基于規則和詞典的用電安全領域命名實體識別
2022年電子技術應用第12期
袁金斗1,潘明明1,張 騰2,姜 玨1
1.中國電力科學研究院有限公司,北京100192;2.國網江蘇省電力有限公司,江蘇 南京210000
摘要: 在用電安全領域,存在著大量數據、知識未得到充分挖掘和利用,構建領域知識圖譜不僅可以實現用電安全知識的整合,還能極大地提高電力行業的工作效率。命名實體識別是構建知識圖譜的基礎性工作,研究了基于字典和規則的命名實體識別,通過領域實體詞典、構詞特征字符規則匹配和詞性組合特征規則匹配三種方法從非結構文本中準確地提取用電安全相關實體,為用電安全領域知識圖譜的構建提供高質量和高精度的實體。為優化識別流程、提高響應速度,將通用詞性標注任務交由邊緣節點進行處理,中心服務器僅需響應規則模板匹配等任務。在小規模測試實驗中,綜合使用三種方法對用電安全文本進行領域實體識別,F1值能達到85%以上。
中圖分類號: TP391.1
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.223323
中文引用格式: 袁金斗,潘明明,張騰,等. 基于規則和詞典的用電安全領域命名實體識別[J].電子技術應用,2022,48(12):22-27.
英文引用格式: Yuan Jindou,Pan Mingming,Zhang Teng,et al. Electricity safety domain named entity recognition based on rules and dictionaries[J]. Application of Electronic Technique,2022,48(12):22-27.
Electricity safety domain named entity recognition based on rules and dictionaries
Yuan Jindou1,Pan Mingming1,Zhang Teng2,Jiang Jue1
1.China Electric Power Research Institute,Beijing 100192,China; 2.State Grid Jiangsu Electric Power Co.,Ltd.,Nanjing 210000,China
Abstract: In the field of electricity safety, there are a lots of data and knowledge has not been excavated and utilized, constructing a knowledge graph in the electricity safety field can not only integrate power knowledge, but also greatly improve the efficiency of the power industry. Named entity recognition(NER) is the basis for constructing knowledge graph, this paper studies the named entity recognition based on dictionaries and rules, through three methods: the domain entity dictionary, the word-building feature character rule matching and the part-of-speech combination feature rule matching,to accurately extract electricity safety related entities from non-structured text, providing high-quality and high-precision entities for the construction of knowledge graph in the field of electricity safety. In order to optimize the recognition process and improve the response speed, the general part-of-speech tagging task is sent to the edge node for processing, and the central server processes the rule template matching task. Experimental results show that using the three methods comprehensively to recognition the domain entity of small-scale electricity safety text, the F1 score can reach more than 85%.
Key words : electricity safety domain;NER;domain dictionary;featured character rules;part-of-speech combination rules

0 引言

    命名實體識別[1-3](Named Entity Recognition,NER)在通用領域中主要是指識別文本中的人名、地名、機構名、時間、貨幣等具有特定意義的實體。目前,命名實體識別的主要方法包括三類:基于規則[4]和詞典[5-6]的方法、基于統計機器學習的方法[7]和基于深度神經網絡的方法[8]。

    目前,用電安全領域缺乏權威數據集[9],命名實體識別研究工作首先需要對語料集進行序列標注,標記非結構文本中的相關實體、無關字符、詞性序列等,在此研究背景下,采用統計機器學習、深度神經網絡的方法較難獲取大規模的訓練語料集。因此,本文主要基于規則和詞典的方法對實體命名識別進行第一階段研究,發掘用電安全領域實體構詞規則及詞性特征,構建領域詞典及規則模板,進一步擴充語料庫,為后續用電安全領域命名實體識別的機器學習、神經網絡方法的研究奠定基礎。

    從技術角度分析,如果構建的領域詞典能夠覆蓋待識別文本中絕大多數相關實體,那么,基于詞典的命名實體識別方法將具有高準確度及高響應度。但是,領域實體的多樣性、復雜性、衍生性導致構建覆蓋全面的高質量詞典較為困難。因此,基于詞典的方法通常是基于規則方法的輔助補充手段[10]?;谝巹t的實體命名識別多采用人工歸納并構造規則模板,選用特征包括標點符號、關鍵字、指示詞和方向詞、位置詞(如前后綴)、中心詞等,以規則模板的正則匹配為主要手段[11]。當語料規模不大且提取的規則能比較精確地反映語言現象時,基于規則和詞典的方法其性能要優于基于統計的方法[12]。

    另一方面,物聯網設備和數據的爆發式增長,使得基于云計算模型的聚合性服務逐漸顯露出其在實時性、網絡制約、資源開銷等方面的不足。為彌補集中式云計算的不足,本文采用邊緣計算架構,其優勢在于能夠在數據產生側快捷、高效地響應業務需求,減小服務對網絡的依賴,在離線狀態下也能夠提供基礎業務服務。




本文詳細內容請下載:http://www.xxav2194.com/resource/share/2000005035。




作者信息:

袁金斗1,潘明明1,張  騰2,姜  玨1

(1.中國電力科學研究院有限公司,北京100192;2.國網江蘇省電力有限公司,江蘇 南京210000)




wd.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 少妇丰满爆乳被呻吟进入| 欧美乱妇狂野欧美在线视频| 国产女主播一区| 99re热这里只有精品| 日本全黄三级在线观看| 亚洲校园春色另类激情| 精品国产日韩亚洲一区在线| 国产尤物二区三区在线观看| 91福利精品老师国产自产在线| 成人午夜短视频| 五月天国产视频| 毛片大片免费看| 午夜成人免费视频| 香蕉久久久久久AV成人| 国产精品自在欧美一区| xxxxx.av| 日本乱码视频a| 亚洲一区电影在线观看| 波多野结衣电影免费在线观看| 台湾一级淫片完整版视频播放| 黄网站在线免费| 国产精品成人四虎免费视频| gav男人天堂| 成年男女免费视频网站| 久久精品视频7| 欧美成人精品第一区| 偷天宝鉴在线观看| 老师让我她我爽了好久网站| 国产模特众筹精品视频| 91福利电影福利在线观看| 女人战争之肮脏的交易| 中文字幕日韩国产| 老师你的兔子好软水好多的车视频| 国产精品爽黄69天堂a| japmassage日本按摩| 欧美激情精品久久久久久久九九九| 国产精品久久香蕉免费播放| 99视频精品全部在线观看| 成年免费A级毛片免费看无码| 久久精品国产亚洲av瑜伽| 欧美性猛交xxxx黑人|