《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 一種面向微博文本的命名實體識別方法
一種面向微博文本的命名實體識別方法
2018年電子技術應用第1期
李 剛,黃永峰
清華大學 電子工程系NGN實驗室,北京100084
摘要: 命名實體識別是自然語言處理領域的一項基礎性技術。近年來微博等網絡社交平臺發展迅速,其獨特的形式對傳統的命名實體識別技術提出了新的挑戰。故提出一種基于條件隨機場模型的改進方法,針對微博文本短小、語義含糊等特點,引入外部數據源提取主題特征和詞向量特征來訓練模型,針對微博數據規模大、人工標準化處理代價大的特點,采取一種基于最小置信度的主動學習算法,以較小的人工代價強化模型的訓練效果。在新浪微博數據集上的實驗證明,該方法與傳統的條件隨機場方法相比F值提高了4.54%。
中圖分類號: TP391
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.179024
中文引用格式: 李剛,黃永峰. 一種面向微博文本的命名實體識別方法[J].電子技術應用,2018,44(1):118-120,124.
英文引用格式: Li Gang,Huang Yongfeng. An approach to named entity recognition towards micro-blog[J]. Application of Electronic Technique,2018,44(1):118-120,124.

An approach to named entity recognition towards micro-blog
Li Gang,Huang Yongfeng
NGN Laboratory,Department of Electronics Engineering,Tsinghua University,Beijing 100084,China
Abstract: Named entity recognition is a fundamental technology in natural language processing(NLP). In recent years, rapid development of social network platforms such as microblog presents new challenges to the traditional named entity recognition(NER) technology because of the unique form. In this paper, an improved method based on the conditional random field(CRF) model is proposed for microblog texts. Due to the short texts and semantic ambiguity, external data resources are introduced to generate the topic feature and word representation feature for training the model. Due to the large-scale of microblog data and the high cost of manual standardization, an active learning algorithm based on least confidence is adopted to enhance the training effect at a lower cost of labor. Experiments on a Sina weibo data set show that this method improves the F-score by 4.54% compared to the traditional CRF methods.
Key words : named entity recognition;micro-blog;conditional random field;word representation;active learning

0 引言

    命名實體識別(Named Entity Recognition)是指識別文本中的各種實體,如人名、地名、機構名或其他特有標識[1],是自然語言處理(Natural Language Processing,NLP)中非常重要的一項基礎性技術。近年來,Twitter、新浪微博等新型社交平臺發展迅速,成為命名實體識別的新方向。RITTER A[2]等人設計了一個應用于Twitter上的T-NER系統,重構了命名實體識別的流程。TURIAN J等人[3]利用半監督的系統進行命名實體識別,大大減少了識別的成本。Liu Xiaohua等人[4]在一個半監督的框架下把K近鄰分類器和CRF模型結合起來,識別Twitter中的命名實體,取得了較好的效果。

    上述工作都是基于Twitter的,沒有考慮中文的深層語義,且多使用有限自建數據集,沒有考慮人工標記的代價和不足,因此需要加以改進。本文研究面向中文微博的命名實體識別,將識別視為一個序列標注問題,通過改進的基于概率模型的算法優化識別效果。針對微博文本短小、信息量少和文體不正規、語意含糊的特點,引入外部數據源提取深層語義特征;針對微博數據集人工處理代價大的問題,引入主動學習算法,以較小的人工代價獲得識別效果的提升。

1 面向微博的命名實體識別方法

    參照CoNLL2003的標準,給定一條微博,需要識別出其中的人名、地名、機構名和其他實體共4類命名實體[5]

    研究的基礎模型采用了CRF[6]模型。

1.1 特征選取

    基礎特征采用當前詞和前后位置詞的詞型和詞性特征,這也是大多數CRF模型會采用的特征。由此生成的模型作為基礎模型,對應的實驗結果作為基線。

1.1.1 主題特征

    (Latent Dirichlet Allocation,LDA)模型[7]是一種無監督的概率主題模型。每個主題下都分布著出現概率較高的詞語,這些詞都與這個主題有很強的相關性,利用這種相關性能在一定程度上解決一詞多義、同義詞等問題。模型的訓練使用了外部數據源,主題個數k可以事先指定。

    獲得LDA模型后,對于給定k個主題,通過p(w|t),將每個主題視為一個特征,將訓練集中的每個詞看作是由k個特征表示的K維向量,則每個詞都可以表示成一個k維向量,即:

    jsj3-gs1.gif

其中,vi表示第i個詞的向量,λk表示該詞在第k個主題上的權重,N是詞表的大小。

1.1.2 詞向量特征

    詞向量源于HINTON G E[8]提出的Distributed Representation。一個流行的詞向量訓練工具是word2vec,由MIKOLOV T[9]于2013年提出。word2vec能把詞映射到d維的向量空間,用向量空間的相似度表示文本語義上的相似度,有利于解決微博語義含糊的問題。

    詞向量一般有200~500維,如果直接將詞向量作為特征引入CRF模型,則計算量過大。這里需要利用的是其相似性,因此可以用聚類的方法進行簡化。實驗中選擇將詞語表示為200~500維的詞向量,再利用k-means進行聚類,將類別作為特征輸入模型。特別需要指出的是,相比采用單一的聚類結果,更好的辦法是多層聚類(multi-layer cluster)。

jsj3-gs2.gif

1.2 模型強化

    人工處理微博語料人工處理代價高昂,為了以最小的人工代價獲得最大的系統性能提升,研究采用了主動學習算法。主動學習算法包含兩部分,一個是分類器,另一個是抽樣策略[10]。分類器采用前文所述的改進型CRF模型。抽樣策略可采用如下方法。

    抽樣不確定度是一中常見的衡量樣本信息含量的方法,在序列標注模型中,可以根據最小置信度(Least Confidence)φLC(x)來確定抽樣不確定度。

    jsj3-gs3.gif

其中,x表示一個樣本,y*是對應概率最大的標記。對于一個訓練好的CRF模型,可以在對每條微博進行標記的同時輸出對應概率P。現給出整個算法框架。

    算法1:基于置信度的主動學習算法

    輸入:有標記語料DL、未標記語料DU

    輸出:分類器C

        用DL訓練分類器C(CRF classifier)

        重復:

jsj3-2-s1.gif

2 實驗

    實驗用到了3個數據集,分別是訓練集、擴展集和測試集。其中3 000條標記語料作為訓練集,2 000條標記語料作為測試集。另外2 000條作為擴展集用于主動學習,不需標注。另有500萬條經過除重去噪的微博作為外部源,分別用于LDA模型訓練和詞向量模型訓練,供抽取外部特征使用。

2.1 評價標準

    本文采用的評價標準包括準確率P(Precision)、召回率R(Recall)和F1值(F1-measure)3個指標。F1是準確率和召回率的調和平均值,是一個綜合性的指標。

2.2 實驗數據及分析

    (1)使用訓練集提取基礎特征,建立基礎模型,在測試集上進行評估。結果如表1所示。此結果將作為基線與后續實驗結果進行對比。

jsj3-b1.gif

    (2)引入外部特征進行了多組實驗。圖1左側是引入主題特征后的提升效果,雖然有效果但不明顯。圖1右側是將400維的詞向量進行聚類后作為特征引入模型的效果。F1值在聚類個數為400時達到了63.96%,較基線有明顯提升。究其原因,主要是詞向量的分量中隱含了豐富的上下文語法和語義信息,而LDA模型內部采用了詞袋模型,僅考慮了詞的共現關系而沒有考慮上下文關系,這樣簡化了模型,但不可避免地帶來了信息的損失。

jsj3-t1.gif

    多層聚類的實驗效果如圖2所示,每個維度下前4個柱圖表示單層聚類(分別是聚成200、300、400、500個類簇)時的效果,最后一個表示同時使用前4個聚類結果作為多層聚類時的效果,顯然效果比單層聚類更好。

jsj3-t2.gif

    同時將所有的外部特征添加到基礎模型進行實驗,F1值提高到65.41%。

    (3)采用主動學習的方法進一步強化模型。提升效果如圖3所示。詳細的數據參見表2。曲線Model_ba表示僅用外部特征而不進行主動學習的模型效果。曲線Model_la表示把一次性把包括訓練集DL和擴展集DU在內的所有語料都進行標記(label all)并用于模型訓練。Model_al1、Model_al2和model_al3是使用主動學習策略但閾值不同的模型。總體看,無論是取哪個閾值,相比不進行主動學習,主動學習都能提高F1值,且收斂速度很快。

jsj3-t3.gif

jsj3-b2.gif

    表2進一步說明了主動學習的優點。Model_la需要標記微博2 080條,約9萬個詞,人工代價太大。相比之下,3個主動學習模型能明顯降低人工標記量。其中Model_al2比Model_al3的F1值要高0.25%,標記量僅提升了12.9%;而Model_al1與Model_al2相比,F1值僅提升了0.1%,但代價是標記量提升了17%,且多迭代了兩次。綜合考慮,取Model_al2作為最終的實驗結果。此時僅需標記457條微博,約37 000個標記,F1值達到67.23%,相較最初的模型提升4.54%。

3 結語

    本文提出了一種面向中文微博的命名實體識別方法,先引入外部特征訓練CRF模型,再采用主動學習算法強化訓練結果。實際工作中發現,中文分詞效果不佳影響了后續的工作,主動學習仍然引入了二次標記,不利于大規模的識別任務。這些都需要在以后的工作中加以改進。

參考文獻

[1] NADEAU D,SEKINE S.A survey of named entity recognition and classification[J].Lingvisticae Investigationes,2007,30(1):3-26.

[2] RITTER A,CLARK S,ETZIONI O.Named entity recognition in tweets: an experimental study[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:1524-1534.

[3] TURIAN J,RATINOV L,BENGIO Y.Word representations:a simple and general method for semi-supervised learning[C].Proceedings of the 48th annual meeting of the association for computational linguistics.Association for Computational Linguistics,2010:384-394.

[4] Liu Xiaohua,Zhang Shaodian,Wei Furu,et al.Recognizing named entities in tweets[C].Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1. Association for Computational Linguistics,2011:359-367.

[5] TJONG KIM SANG E F,DE MEULDER F.Introduction to the CoNLL-2003 shared task:Language-independent named entity recognition[C].Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Vol-ume 4.Association for Computational Linguistics,2003:142-147.

[6] LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C].Eighteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.,2001:282-289.

[7] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[8] HINTON G E.Learning distributed representations of concepts[C].Proceedings of the Eighth Annual Conference of the Cognitive Science Society,1986,1:12.

[9] MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of words and phrases and their compositionality[C].Advances in Neural Information Processing Systems,2013:3111-3119.

[10] WU Y,KOZINTSEV I,BOUGUET J Y,et al.Sampling strategies for active learning in personal photo retrieval[C].Multimedia and Expo,2006 IEEE International Conference on.IEEE,2006:529-532.

此內容為AET網站原創,未經授權禁止轉載。
欧美激情办公室aⅴ_国产欧美综合一区二区三区_欧美午夜精品久久久久免费视_福利视频欧美一区二区三区

          亚洲第一网站| 亚洲欧美亚洲| 激情亚洲网站| 久久精品一区二区国产| 亚洲欧洲综合| 国产主播精品| 欧美在线网址| 欧美成人久久| 免费久久久一本精品久久区| 99热免费精品在线观看| 一区二区三区我不卡| 欧美日韩精品免费观看视一区二区| 老司机一区二区三区| 午夜亚洲一区| 欧美一区二区在线| 欧美黄在线观看| 午夜视频一区| 韩日精品视频| 99国产精品久久久久久久成人热| 午夜影院日韩| 六月天综合网| 欧美一区二区三区免费看| 久久中文精品| 久久夜色精品| 欧美另类一区| 亚洲国产精品日韩| 亚洲永久字幕| 欧美三级不卡| 亚洲国产日韩欧美| 久久黄色网页| 在线免费高清一区二区三区| 国产精品毛片一区二区三区| 亚洲国产日韩欧美一区二区三区| 亚洲精品国产精品国自产观看| 欧美高清视频一区二区三区在线观看| 欧美成人一区二免费视频软件| 影音先锋久久精品| 午夜在线一区二区| 亚洲性图久久| 久久精品盗摄| 亚洲激情综合| 你懂的视频一区二区| 在线国产日韩| 亚洲免费中文| 今天的高清视频免费播放成人| 国产农村妇女精品一二区| 久久另类ts人妖一区二区| 亚洲私人影院| 久久成人国产| 日韩一级网站| 午夜日本精品| 噜噜噜久久亚洲精品国产品小说| 国模一区二区三区| 激情综合电影网| 久久午夜精品| 国产亚洲毛片| 亚洲毛片av| 在线成人h网| 国产精品国码视频| 久久久久国产精品一区三寸| 雨宫琴音一区二区在线| 老司机一区二区三区| 亚洲国内自拍| 亚洲午夜激情| 麻豆久久婷婷| 亚洲尤物影院| 亚洲欧美日韩精品一区二区| 海角社区69精品视频| 美女精品在线观看| 免费视频久久| 久久久久国内| 久久久夜夜夜| 久久久人人人| 麻豆精品网站| 久久久99爱| 久久狠狠婷婷| 午夜精品亚洲| 欧美日韩在线精品| 国产精品xxx在线观看www| 牛夜精品久久久久久久99黑人| 99精品国产高清一区二区| 亚洲午夜精品国产| 亚洲三级免费| 亚洲欧美久久久| 欧美 日韩 国产一区二区在线视频| 99riav1国产精品视频| 9国产精品视频| 国产精品推荐精品| 国产精品一区二区欧美| 免费看黄裸体一级大秀欧美| 久久精品五月婷婷| 欧美精品一区二区三区在线看午夜 | 国产模特精品视频久久久久| 国产欧美欧美| 亚洲欧美日韩在线观看a三区| 久久精品伊人| 一区在线视频观看| 99国产精品久久久久久久成人热| 久久精品中文| 欧美一级久久| 亚洲一区日本| 国产一区成人| 亚洲日韩成人| 亚洲精品男同| 日韩亚洲在线| 亚洲一区成人| 亚洲欧美日韩国产| 亚洲免费中文| 免费亚洲网站| 久久久久久九九九九| 亚洲一区bb| 国产精品社区| 国产精品久久久久久模特| 亚洲国产高清一区| 亚洲视频免费| 最新日韩在线| 国产日韩三区| 免费日韩av片| 老妇喷水一区二区三区| 久久精品女人| 欧美精品成人一区二区在线观看| 性娇小13――14欧美| 校园春色综合网| 欧美一区1区三区3区公司| 日韩午夜高潮| 国产精品一国产精品k频道56| 国产亚洲高清视频| 久久精品人人| 国产一区二区三区四区hd| 极品日韩av| 国产亚洲亚洲| 欧美 日韩 国产在线| 欧美日韩国产精品一区二区亚洲 | 国产一区二区高清不卡| 国产日产高清欧美一区二区三区| 国产欧美丝祙| 亚洲综合视频一区| 欧美女人交a| 亚洲巨乳在线| 久久综合中文| 亚洲国产精品久久久久婷婷老年| 一本色道久久综合亚洲精品婷婷| 亚洲一区二区在线看| 欧美aa国产视频| 韩日成人av| 国产欧美精品久久| 久久综合中文色婷婷| 国产一区二区中文| 亚洲免费影视| 亚洲精品1234| 欧美人与禽猛交乱配视频| 一区二区三区国产在线| 欧美成人一区二区在线| 国产人成精品一区二区三| 欧美久久视频| 一区二区欧美日韩| 欧美日韩国产一区精品一区| aa亚洲婷婷| 国内精品久久久久久久影视蜜臀| 国产伦精品一区二区三区四区免费| 久久婷婷一区| 在线亚洲精品| 激情亚洲网站| 欧美a级片一区| 久久动漫亚洲| 一本一本久久a久久精品综合妖精| 久久综合图片| 免费日韩av| 国产欧美一区二区色老头| 激情综合中文娱乐网| 午夜亚洲福利| 欧美在线不卡| 久热精品视频| 欧美一区二区在线| 国产女主播一区二区三区| 亚洲国产欧美不卡在线观看| 国产精品vip| 午夜欧美理论片| 久久综合影视| 久久精品人人| 久久久精彩视频| 久久久久久精| 久久免费国产| 毛片一区二区| 久久久久久久欧美精品| 亚洲欧美久久久| 欧美一级播放| 媚黑女一区二区| 久久国产精品亚洲va麻豆| 模特精品在线| 久久亚洲精品伦理| 久久本道综合色狠狠五月| 久久激情中文| 欧美激情一区二区三区在线视频| 久久久夜夜夜| 午夜日韩激情| 99在线|亚洲一区二区| 亚洲国产mv| 亚洲毛片一区| 国产模特精品视频久久久久| 亚洲一区高清| 久久在线精品| 黑人中文字幕一区二区三区| 亚洲大胆在线| 欧美专区18| 国产精品多人| 国产欧美日韩一区| 久久午夜影视| 欧美日韩三区四区| 亚洲九九精品| 久久综合福利| 亚洲成人中文| 免费在线欧美黄色| 黑丝一区二区| 亚洲欧美卡通另类91av| 欧美日韩综合久久| 亚洲精选在线| 欧美国产日本| 中文亚洲字幕| 欧美三区美女| 国产精品日韩高清| 国产一区日韩一区| 亚洲综合日本| 亚洲国产日韩欧美| 久久国产精品一区二区三区四区| 欧美日韩理论| 性娇小13――14欧美| 极品尤物久久久av免费看| 香蕉久久夜色精品国产| 一区三区视频| 欧美激情性爽国产精品17p| 中文一区在线| 黄色欧美成人| 欧美阿v一级看视频| 国产日韩亚洲| 亚洲欧洲日本mm| 欧美激情1区2区3区| 亚洲永久免费| 国产欧美精品| 最新亚洲视频| 黄色日韩精品| 国产精品99免费看| 久久影院亚洲| 久久精品观看| 另类激情亚洲| 亚洲在线网站| 国产精品一区亚洲| 国产精品久久亚洲7777| 亚洲精品一级| 亚洲精品中文字幕在线| 亚洲性图久久| 黄色欧美成人| 一区在线电影| 久久精品国语| 免费视频久久| 国产日韩亚洲| 亚洲免费黄色| 日韩天天综合| 日韩视频在线观看国产| 亚洲国产一区二区三区在线播| 欧美片第1页综合| 久久久久久网| 久久亚洲电影| 久久精品五月| 久久一区中文字幕| 久久九九99| 欧美有码视频| 欧美日韩一区二区三区在线视频 | 久久精品国语| 久久久久久久久一区二区| 久久久成人网| 欧美黄色aaaa| 欧美日本中文| 国产一区二区无遮挡| 伊人激情综合| 国产欧美精品久久| 久久久久久色| 伊人成人在线| 午夜一区不卡| 国产精品扒开腿做爽爽爽软件| 影音国产精品| 国产欧美精品久久| 欧美一区二区三区久久精品茉莉花| 久久亚洲美女| 亚洲国产一区二区三区在线播 | 99精品国产福利在线观看免费| 99国产精品自拍| 久久精品综合| 亚洲黄色成人| 久久美女性网| 亚洲欧洲日韩综合二区| 亚洲一区二区在| 国产在线欧美| 男人的天堂亚洲| 欧美午夜一区二区福利视频| 一区二区免费在线视频| 欧美777四色影| 在线播放不卡| 久久久xxx| 亚洲精一区二区三区| 午夜精品久久久久99热蜜桃导演| 亚洲激情二区| 午夜欧美理论片| 亚洲一区影院| 99国产精品私拍| 国产精品观看| 欧美一区二区三区久久精品| 在线视频国内自拍亚洲视频| 久久另类ts人妖一区二区| 99国产一区| 影音先锋日韩资源| 欧美极品一区| 欧美伊人影院| 久久看片网站| 久久精品亚洲| 国产精品女主播一区二区三区| 国产一区二区三区无遮挡| 亚洲欧美日韩国产一区| 最新成人av网站| 在线播放日韩| 韩国自拍一区| 狠狠久久综合婷婷不卡| 欧美人与禽猛交乱配视频| 久久久精品网| 久久久xxx| 久久免费国产| 久久精品二区三区| 先锋影音一区二区三区| 国产精品一页| 午夜一区在线| 媚黑女一区二区| 亚洲女优在线| 久久福利精品| 久久久久一区二区| 久久久亚洲一区| 欧美福利视频| 欧美日韩1区2区3区| 欧美精选在线| 亚洲午夜黄色| 一本久道综合久久精品| 国产精品乱看| 美女精品在线| 欧美日韩国产综合在线| 激情偷拍久久| 一区二区三区福利| 国产一区二区高清不卡| 亚洲欧美成人| 欧美一区二区三区久久精品茉莉花| 久久综合九色综合网站| 国产精品久久7| 亚洲性视频h| av不卡在线看| 久久午夜精品一区二区| 欧美午夜免费影院| 亚洲福利av| 亚洲欧美成人综合| 欧美欧美天天天天操| 亚洲高清激情| 免费亚洲网站| 黄色av成人| 午夜在线一区二区| 国产一区在线免费观看| 99精品国产在热久久| 久久成人资源| 一区视频在线| 美女久久一区| 亚洲高清网站| 久久久久久久久久码影片| 国产精品二区影院| 亚洲一区二区成人| 欧美三区在线| 国产女优一区| 黄色精品网站| 久久久久久婷| 国产欧美丝祙| 国内精品99| 午夜影院日韩| 日韩午夜电影| 欧美私人啪啪vps| 亚洲综合视频一区| 一区在线观看| 欧美激情一区二区三区在线视频| 9色精品在线| 激情综合自拍| 老司机精品导航| 亚洲一区二区三区免费观看 | 久热精品在线| 国产精品丝袜xxxxxxx| 国产在线日韩| 久久亚洲免费| 亚洲免费在线| 国产亚洲二区| 99国产精品| 亚洲欧洲日本国产| 精品69视频一区二区三区Q| 欧美一区91| 老牛嫩草一区二区三区日本| 久久riav二区三区| 免费久久久一本精品久久区| 在线亚洲成人|