《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 一種自適應網頁結構化信息提取方法
一種自適應網頁結構化信息提取方法
2020年電子技術應用第12期
淮曉永,韓曉東,高若辰,高煥新
華北計算機系統工程研究所,北京100083
摘要: 面向互聯網信息采集挖掘應用,針對傳統的網站信息整頁采集方式存在采集信息混雜、無法直接使用,而人工結構化采集方式成本高、工作效率低的問題,研究提出了一種自適應網頁結構化信息提取方法,實現了網頁分類算法、基于子樹的標題項、內容項的結構化信息提取算法?;诘湫途W站網頁分類標注數據集進行分類模型的學習建模,可以自適應不同網站的差異,對網頁進行分類,按照網頁分類分別提取出網頁中的列表項結構化信息、內容項結構化信息。該技術對提高網站信息結構化采集處理的自動化水平及處理效率具有重要作用。
中圖分類號: TN919.5;TP391.1
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.200160
中文引用格式: 淮曉永,韓曉東,高若辰,等. 一種自適應網頁結構化信息提取方法[J].電子技術應用,2020,46(12):97-102.
英文引用格式: Huai Xiaoyong,Han Xiaodong,Gao Ruochen,et al. An adaptive method for extracting structured information from web pages[J]. Application of Electronic Technique,2020,46(12):97-102.
An adaptive method for extracting structured information from web pages
Huai Xiaoyong,Han Xiaodong,Gao Ruochen,Gao Huanxin
National Computer System Engineering Research Institute of China,Beijing 100083,China
Abstract: In order to meet the needs of Internet information collection and mining, aiming at the problems of traditional web site information collection methods, such as mixed collection information, unable to be used directly, and the high cost and low efficiency of manual structured collection method, this paper proposes an adaptive method for extracting structured information from web pages. We implement web page classification algorithm, subtree based title item and content item structured information extraction algorithm. Based on the classification annotated dataset of typical website pages, the classification model can adapt to the differences of various web sites, classify the web pages, and extract the list structured information and content structured information in the web pages according to the web page classification. This technology plays an important role in improving the automation level and processing efficiency of website structured information collection and processing.
Key words : information extraction;structured information;classification model;adaptive

0 引言

    在互聯網大數據時代,互聯網信息呈現爆炸式增長,其中蘊藏著很多有價值的重要信息需要處理與利用。通過智能化的大數據信息挖掘處理,可以從中分析把握技術發展的方向態勢,迅速發現高價值的科技信息。

    從關注的Internet網站源自動采集收集新發布的信息,并提取出其中的結構化信息,是建立互聯網大數據系統的基礎。通過網絡爬蟲系統可以從各類網站爬取大量的網頁數據,但傳統的網站信息整頁采集方式信息混雜,無法直接進行大數據挖掘處理,而人工從網頁中提取結構化的文本信息又存在成本高、工作效率低的問題。如何通過自動化的網頁數據結構化信息采集技術實現自動從網頁中提取結構化的信息,是進行互聯網大數據挖掘處理的關鍵預處理技術。

    本文研究針對傳統的網站信息整頁采集方式存在采集信息混雜、無法直接使用,而人工結構化采集方式成本高、工作效率低的問題,研究實現了一種基于DOM樹的網頁結構化信息提取方法(DOM based Web-page Structured Information Extraction,DWSIE),實現了一個網頁結構化信息提取服務工具包,該工具包極大地提高了網站結構化信息采集處理的自動化水平和處理效率。




本文詳細內容請下載:http://www.xxav2194.com/resource/share/2000003263




作者信息:

淮曉永,韓曉東,高若辰,高煥新

(華北計算機系統工程研究所,北京100083)

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 永久免费无码网站在线观看| 国产精品亚洲w码日韩中文| 日本人亚洲人jjzzjjzz页码1| 亚洲精品乱码久久久久久蜜桃| 色噜噜视频影院| 国产男女猛烈无遮挡免费视频网站| nxgx.com| 日本亚州视频在线八a| 亚洲国产成a人v在线观看| 疯狂魔鬼城无限9999999金币| 国产亚洲精品美女久久久| 二个人看的www免费视频| 大肉大捧一进一出小视频| 中文字幕永久免费| 最漂亮夫上司犯连七天| 亚洲欧美日韩在线观看| 精品免费国产一区二区| 国产又黄又大又粗的视频| 2019国产情侣| 波多野结衣伦理电影| 国产一卡二卡三卡| 5566中文字幕| 大学生美女毛片免费视频| 中文字幕无码精品三级在线电影| 最近最新2019中文字幕高清| 亚洲第一页在线视频| 精品久久久久国产免费| 国产亚洲欧美日韩亚洲中文色| 你懂的国产高清在线播放视频| 天下第一日本高清国语在线观看 | 亚洲成在人线在线播放无码 | 久久亚洲精品成人综合| 欧美在线高清视频| 亚洲视频在线看| 精品亚洲aⅴ在线观看| 国产xxxx做受视频| 高潮插的我好爽再干噢在线欢看 | 久久综合琪琪狠狠天天| 欧美日韩国产精品| 人人爽人人爽人人爽人人片av| 精品影片在线观看的网站|