《電子技術應用》
您所在的位置:首頁 > 通信與網(wǎng)絡 > 設計應用 > 網(wǎng)頁去重的改進算法
網(wǎng)頁去重的改進算法
來源:微型機與應用2011年第12期
王 靜1, 劉觀寧2,張鈺輝1
(1. 西安電子科技大學 計算機學院, 陜西 西安 710071; 2. 安徽省技術創(chuàng)新服務中心,
摘要: 針對網(wǎng)頁內(nèi)容相似重復的特點,提出了一種改進算法對網(wǎng)頁進行去重處理。該方法能夠有效地對網(wǎng)頁進行去重,并能對網(wǎng)頁信息進行冗余識別處理。實驗結(jié)果表明,與原有網(wǎng)頁去重算法相比,該算法的執(zhí)行效果提高了14.3%,對網(wǎng)頁去重有了很明顯的改善。
Abstract:
Key words :

摘  要: 針對網(wǎng)頁內(nèi)容相似重復的特點,提出了一種改進算法對網(wǎng)頁進行去重處理。該方法能夠有效地對網(wǎng)頁進行去重,并能對網(wǎng)頁信息進行冗余識別處理。實驗結(jié)果表明,與原有網(wǎng)頁去重算法相比,該算法的執(zhí)行效果提高了14.3%,對網(wǎng)頁去重有了很明顯的改善。
關鍵詞: 網(wǎng)頁去重; 特征提取; 特征表示

    隨著互聯(lián)網(wǎng)的高速發(fā)展,Web已經(jīng)成為最大的信息來源。但是如何獲取這些Web信息為我所用則是大家面臨的共同問題。網(wǎng)頁去重是Web網(wǎng)頁信息處理的重要環(huán)節(jié),只有在對網(wǎng)頁的去重基礎上才可以準確處理網(wǎng)頁中的信息。本文介紹網(wǎng)頁的去重算法。
    提取出來的網(wǎng)頁,有些內(nèi)容可能很相似,對于這些內(nèi)容相似的網(wǎng)頁沒必要保存。針對系統(tǒng)中的人才招聘網(wǎng)頁更是必要:一個公司的招聘信息很可能會在數(shù)十家招聘網(wǎng)站以及自己公司主頁同時發(fā)布,所以有必要對這些網(wǎng)頁去重。

 對于網(wǎng)頁,ti就表示特征詞條,wi(d)就是文本d中ti的權值。用這個特征矢量來表示網(wǎng)頁文本。在網(wǎng)頁表示中,對任一特征而言有兩個因素影響特征的權值。一是詞在HTML文檔中出現(xiàn)的詞頻,另一個是該詞在該文檔中出現(xiàn)的位置。詞頻指的是某一詞條在文檔中出現(xiàn)的頻率, 頻率越高(當然不包括那些停用詞)則說明該詞越重要,越能代表該網(wǎng)頁的內(nèi)容。對于網(wǎng)頁的主題包含在<title>和</title>之間的詞組比在<body>和</body>之間的詞組更具有代表性。因此本文提出了一種把該詞出現(xiàn)的頻率以及該詞出現(xiàn)的位置相結(jié)合的權重計算方法,能夠更有效地表示網(wǎng)頁。公式如下:



 (3) 聯(lián)合特征提取方法
 雖然X2統(tǒng)計量法是目前常用的特征提取方法之一,但該方法仍存在一些缺點,如它提高了在指定類中
  
    在網(wǎng)絡訓練過程開始時,定義獲勝節(jié)點的鄰域節(jié)點是為了能使二維輸出平面上相鄰輸出節(jié)點對相近的輸入模式類做出特別反應。假設本次獲勝節(jié)點為Nj,它在t時刻的鄰域節(jié)點用NEj表示,NEj(t)是包含以Nj中心而距離不超過某一半徑的所有節(jié)點。隨著訓練過程的進行,NEj(t)的半徑逐漸減小,最后只包含獲勝節(jié)點Nj本身,也就是說在訓練的起始階段不僅對獲勝節(jié)點做權值調(diào)整,而且也對其較大范圍內(nèi)的幾何鄰節(jié)點做相應的調(diào)整,隨著訓練過程的繼續(xù)進行,與輸出節(jié)點相連的權向量也越來越接近其代表的模式類。這時,在對獲勝節(jié)點的權值進行比較細微的調(diào)整時,只對其幾何鄰節(jié)點比較近的節(jié)點進行相應的調(diào)整,直到最后只對獲勝節(jié)點本身做細微的調(diào)整。在訓練過程結(jié)束后,幾何上相近的輸出節(jié)點所連接的權向量既有聯(lián)系又有區(qū)別,這樣,保證了對某一類輸入模式獲勝節(jié)點能夠做出最大“響應”,而相鄰節(jié)點做出“較大”響應。幾何上相鄰節(jié)點代表特征上相近的模式類別。
 自組織特征映射學習過程包括描述最佳匹配神經(jīng)元的選擇和描述權矢量的自適應變化過程兩部分。SOM輸出層通常由兩維m×m的網(wǎng)格節(jié)點組成,從輸入向量到網(wǎng)絡輸出層的每個節(jié)點j的權值向量定義為w,w和xi的維數(shù)是相同的,設為d,影射節(jié)點的數(shù)量從數(shù)十個到數(shù)千個決定SOM正確性和概化能力。

4 實驗結(jié)果
 采用以上介紹的算法,對一批數(shù)量在50~100之間的網(wǎng)頁集合進行去重處理,集合中包含了一與此內(nèi)容完全相同或部分相同的網(wǎng)頁,將實驗結(jié)果與人工判別的結(jié)果進了比較,發(fā)現(xiàn)重復網(wǎng)頁的正確率達到95%以上,出現(xiàn)錯誤的判斷的是由于網(wǎng)頁轉(zhuǎn)載時出現(xiàn)錯碼等現(xiàn)象,有的是兩個重復網(wǎng)頁的段落排列差異太大。測試結(jié)果如圖1所示。


    本文將SOM的思想和方法引入中文Web文檔的聚類問題.探索向用戶提供高質(zhì)量的網(wǎng)頁信息具有很強的理論意義和實際價值。但是,這種方法的不足之處是當網(wǎng)絡的連接過多、節(jié)點數(shù)目龐大時其計算量大,需要較長的學習時間。所以對于上述問題,筆者正在研究通過網(wǎng)絡剪枝技術,在不增加聚類錯誤的前提下,剪去多余的連接和節(jié)點,降低特征向量空間的維數(shù)從而減少計算工作量。
參考文獻
[1] LINSKER R. An application of the principle of maximum  information preservation to linear systems[Z]. Adv. Neural Inform. Process Systems, 1989,1.
[2] JUTTEN C, HERAULT J. Blind separation of sources,Part1:An adaptive algorithm based on neuromimetic architecture [J]. Signal Processing, 1991,24:10.
[3] COMMON P. Independent component analysis,a new concept[J]. Signal Processing, 1994,36:287-314.
[4] TONAZZINI A, BEDINI L, KURUOGLU E E. Blind separation of auto-correlated images from noisy images using  mrf models,. in 4th Int. Symp. on ICA and Blind Source Separation, Nara, Japan, 2003.
[5] SHULMAN D, HERVE J Y. Regularization of discontinuous  flow fields. in Proc. Workshop on Visual Motion, 1989:81-86.
[6] BOUMAN C, SAUER K. A generalised gaussian image model for edge-preserving MAP estimation,. IEEE Trans. Image Processing, vol. 2, pp. 296-310,1993.2704.
 

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉(zhuǎn)載。
主站蜘蛛池模板: 97色偷偷色噜噜狠狠爱网站97| 久久精品成人一区二区三区| 老子影院午夜精品欧美视频| 国产精品无圣光一区二区| 中国xxxxx高清免费看视频| 欧美jizz18欧美| 人妻少妇精品视频一区二区三区 | 天天干天天射天天爽| 久久久精品久久久久久96| 欧美日本在线一区二区三区| 北岛玲在线一区二区| 韩国xxxx69| 国产精品老熟女露脸视频| 一个人免费视频观看在线www| 日本肉动漫无遮挡无删减在线观看| 亚洲成在人线在线播放无码| 福利午夜国产网站在线不卡| 国产乱子伦露脸在线| 性刺激久久久久久久久 | 色欲欲WWW成人网站| 国产欧美日韩在线播放| 97在线公开视频| 小爱同学下载二三三乐园| 久久久精品日本一区二区三区| 欧美一级日韩一级亚洲一级| 亚洲精品午夜国产va久久成人| 精品午夜福利1000在线观看| 国产乱子影视频上线免费观看| 国产精品乳摇在线播放| 国产精品电影在线| chinese精品男同志浪小辉| 成人性生活免费看| 久久亚洲sm情趣捆绑调教| 欧美xxxx三人交性视频| 亚洲精品影院久久久久久| 精品99在线观看| 同城免费妇女寂寞| 色视频综合无码一区二区三区| 国产成人午夜精品影院游乐网| 深爱五月激情网| 国产视频一二三区|