《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計(jì)應(yīng)用 > 面向農(nóng)業(yè)知識(shí)圖譜構(gòu)建的文本實(shí)體標(biāo)注準(zhǔn)則構(gòu)建及應(yīng)用
面向農(nóng)業(yè)知識(shí)圖譜構(gòu)建的文本實(shí)體標(biāo)注準(zhǔn)則構(gòu)建及應(yīng)用
2023年電子技術(shù)應(yīng)用第5期
陳曉晉1,唐球2,王耀君1
(1.中國農(nóng)業(yè)大學(xué) 信息與電氣工程學(xué)院,北京 100083;2.中國電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所,北京 100083)
摘要: 隨著農(nóng)業(yè)大數(shù)據(jù)及智慧農(nóng)業(yè)的發(fā)展,面對(duì)海量的農(nóng)業(yè)文本數(shù)據(jù),構(gòu)建知識(shí)圖譜等自然語言處理應(yīng)用需求逐漸增長。目前,在農(nóng)業(yè)領(lǐng)域的實(shí)體語料庫及實(shí)體標(biāo)注體系仍處于空白狀態(tài)。對(duì)農(nóng)業(yè)文本進(jìn)行處理時(shí),面臨如何定義實(shí)體類別及范圍等問題。基于此問題,以農(nóng)業(yè)科學(xué)敘詞表為科學(xué)依據(jù),提出面向農(nóng)業(yè)知識(shí)圖譜構(gòu)建的農(nóng)業(yè)文本數(shù)據(jù)實(shí)體標(biāo)注準(zhǔn)則,涵蓋了農(nóng)作物、病蟲草害等多種農(nóng)業(yè)實(shí)體,以及基于該準(zhǔn)則設(shè)置標(biāo)注原則構(gòu)建基于農(nóng)業(yè)文本的自注釋語料庫,并進(jìn)行實(shí)驗(yàn)驗(yàn)證,證明了該準(zhǔn)則的有效性。該準(zhǔn)則為農(nóng)業(yè)實(shí)體語料庫的構(gòu)建提供可參考的標(biāo)注規(guī)范,以及為農(nóng)業(yè)實(shí)體識(shí)別提供語料支持。
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
DOI: 10.16157/j.issn.0258-7998.233824
中文引用格式: 陳曉晉,唐球,王耀君. 面向農(nóng)業(yè)知識(shí)圖譜構(gòu)建的文本實(shí)體標(biāo)注準(zhǔn)則構(gòu)建及應(yīng)用[J]. 電子技術(shù)應(yīng)用,2023,49(5):1-7.
英文引用格式: Chen Xiaojin,Tang Qiu,Wang Yaojun. Construction and application of agricultural text data entity labeling criteria for agricultural knowledge graph construction[J]. Application of Electronic Technique,2023,49(5):1-7.
Construction and application of agricultural text data entity labeling criteria for agricultural knowledge graph construction
Chen Xiaojin1,Tang Qiu2,Wang Yaojun1
(1.College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China; 2.National Computer System Engineering Research Institute of China ,Beijing 100083 ,China)
Abstract: With the development of agricultural big data and smart agriculture, in the face of massive agricultural text data, the demand for building knowledge graph and other natural language processing applications has gradually increased. At present, the entity corpus and entity labeling system in the agricultural field are still in a blank state. When dealing with agricultural texts, we are faced with such problems as how to define the category and scope of entities. Based on this problem, this paper takes the agricultural thesaurus as the scientific basis, proposes the agricultural text data entity labeling criteria for the construction of agricultural knowledge graph, covering a variety of agricultural entities such as crops, pests and weeds, and constructs a self-annotation corpus based on agricultural text based on the labeling principles of the criteria, and carries out experimental verification to prove the effectiveness of the criteria. This criterion provides a referential labeling specification for the construction of agricultural entity corpus and corpus support for agricultural entity recognition.
Key words : knowledge graph;agricultural text;entity tagging;knowledge representation

0 引言

近年來,隨著大數(shù)據(jù)技術(shù)的發(fā)展,各個(gè)領(lǐng)域的數(shù)值、圖像、文本、語音視頻等多源大數(shù)據(jù)增長迅速。以農(nóng)業(yè)領(lǐng)域?yàn)槔r(nóng)業(yè)新聞、農(nóng)資信息、農(nóng)業(yè)政策法規(guī)等與農(nóng)業(yè)生產(chǎn)生活息息相關(guān)的信息通過互聯(lián)網(wǎng)發(fā)布和傳播,構(gòu)成了農(nóng)業(yè)文本大數(shù)據(jù)的主要組成部分。農(nóng)業(yè)從業(yè)者及研究者主要通過網(wǎng)絡(luò)中的文本信息來獲取農(nóng)業(yè)資訊,有效分析文本數(shù)據(jù)不僅可以幫助農(nóng)業(yè)從業(yè)者了解最新的實(shí)踐和趨勢,還可以為農(nóng)業(yè)從業(yè)者、專家在農(nóng)業(yè)任務(wù)管理中做出決策提供支持。農(nóng)業(yè)資訊中蘊(yùn)含著大量的專業(yè)農(nóng)業(yè)知識(shí)及豐富的農(nóng)業(yè)信息,且主要以非結(jié)構(gòu)化的形式存在。農(nóng)業(yè)領(lǐng)域的命名實(shí)體識(shí)別的任務(wù)是從非結(jié)構(gòu)化的文本中識(shí)別與農(nóng)業(yè)領(lǐng)域相關(guān)的實(shí)體,例如作物名稱、病蟲害、農(nóng)藥、肥料等,是作為農(nóng)業(yè)知識(shí)圖譜構(gòu)建和問答等下游任務(wù)不可或缺的基本組成部分。

針對(duì)命名實(shí)體識(shí)別任務(wù)的主要方法為,基于規(guī)則和字典匹配、基于機(jī)器學(xué)習(xí)的方法以及兩者混合的方法。但存在不足,無法滿足復(fù)雜文本需求,仍有局限性。

近年來隨著深度學(xué)習(xí)的快速發(fā)展,其實(shí)現(xiàn)了無需復(fù)雜的特征工程和豐富的領(lǐng)域知識(shí)就可以學(xué)習(xí)復(fù)雜的隱藏表示。目前,基于深度學(xué)習(xí)的模型已被廣泛應(yīng)用于完成命名實(shí)體識(shí)別任務(wù),并已廣泛應(yīng)用于醫(yī)學(xué)、金融等領(lǐng)域,但是目前,在農(nóng)業(yè)領(lǐng)域仍存在挑戰(zhàn)。

農(nóng)業(yè)文本實(shí)體存在著領(lǐng)域特殊性、實(shí)體命名方式繁多、實(shí)體邊界模糊、特征提取不充分、實(shí)體邊界標(biāo)注不一致、數(shù)據(jù)庫不足等問題。這在一定程度上增加了識(shí)別農(nóng)業(yè)文本中實(shí)體的成本和難度。

為了解決上述問題,并促進(jìn)基于農(nóng)業(yè)文本命名實(shí)體識(shí)別任務(wù)及其后續(xù)應(yīng)用的完成,本文將構(gòu)建農(nóng)業(yè)文本數(shù)據(jù)實(shí)體標(biāo)注準(zhǔn)則,并以此建立農(nóng)業(yè)實(shí)體標(biāo)注語料庫。為農(nóng)業(yè)領(lǐng)域相關(guān)從業(yè)人員提供實(shí)體標(biāo)注準(zhǔn)則,便于其開展農(nóng)業(yè)文本研究,例如知識(shí)圖譜構(gòu)建及問答等相關(guān)工作。



本文詳細(xì)內(nèi)容請(qǐng)下載:http://www.xxav2194.com/resource/share/2000005299




作者信息:

陳曉晉1,唐球2,王耀君1

(1.中國農(nóng)業(yè)大學(xué) 信息與電氣工程學(xué)院,北京  100083;2.中國電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所,北京 100083)


微信圖片_20210517164139.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 免费一级美国片在线观看| 国产精品亚洲欧美大片在线看| 久热中文字幕无码视频| 真实乱视频国产免费观看| 国产成人一区二区精品非洲| 99久热只有精品视频免费看| 抱着cao才爽| 亚洲Av鲁丝一区二区三区| 热狗福利ap青草视频入口在线观看p引导下载花季传媒 | 粗大的内捧猛烈进出小视频| 国产婷婷色一区二区三区深爱网 | 日本公与熄乱理在线播放370| 亚洲小说区图片区另类春色| 精品久久人妻av中文字幕| 日产国语一区二区三区在线看| 亚洲欧洲自拍拍偷综合| 精品在线一区二区三区| 国产思思99re99在线观看| 91情国产l精品国产亚洲区| 就去吻亚洲精品欧美日韩在线| 久久精品中文闷骚内射| 欧美日韩一级二级三级| 免费无码黄网站在线观看| 草莓app下载2019年| 国产精品久久久福利| 99热这里只有精品7| 性色av一区二区三区| 久久五月天综合| 校服白袜男生被捆绑微博新闻| 国产一区二区不卡免费观在线 | 99aiav国产精品视频| 少妇人妻偷人精品一区二区| 久久久久人妻精品一区三寸蜜桃| 男女性杂交内射女BBWXZ| 国产一区二区三区内射高清| 国产男女爽爽爽爽爽免费视频| 国语自产少妇精品视频蜜桃| 一本高清在线视频| 日产乱码一卡二卡三免费| 五月婷婷久久综合| 欧美巨大黑人精品videos|