《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 云計算環(huán)境下的數(shù)據(jù)挖掘應(yīng)用
云計算環(huán)境下的數(shù)據(jù)挖掘應(yīng)用
2015年微機與應(yīng)用第5期
石 杰1,2
(1.山東青年政治學院 實驗設(shè)備管理處,山東 濟南 250103; 2.山東省高校信息安全與智能控制重點實驗室,山東 濟南 250103)
摘要: 云計算是一個新的商業(yè)模型,它可以提供無限的廉價存儲和計算能力。而數(shù)據(jù)挖掘中面臨的主要問題是項目集合的空間需求問題,并且其操作非常巨大。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到云計算環(huán)境中,可以按需從云服務(wù)運營商那里獲取項目集合所需空間,從而解決了數(shù)據(jù)挖掘需要巨大空間的問題。文章論述和分析了將數(shù)據(jù)挖掘應(yīng)用到云計算環(huán)境的有效性。
Abstract:
Key words :

  摘  要云計算是一個新的商業(yè)模型,它可以提供無限的廉價存儲和計算能力。而數(shù)據(jù)挖掘中面臨的主要問題是項目集合的空間需求問題,并且其操作非常巨大。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到云計算環(huán)境中,可以按需從云服務(wù)運營商那里獲取項目集合所需空間,從而解決了數(shù)據(jù)挖掘需要巨大空間的問題。文章論述和分析了將數(shù)據(jù)挖掘應(yīng)用到云計算環(huán)境的有效性。

  關(guān)鍵詞: 數(shù)據(jù)挖掘;云計算;頻繁模式;云存儲

0 引言

  “云計算”被描述為是一個平臺系統(tǒng)或軟件應(yīng)用程序。首先,平臺系統(tǒng)意味著云計算系統(tǒng)可以實時地動態(tài)部署、配置、再部署、再配置。在云計算平臺下,服務(wù)器是一個物理服務(wù)器或一個虛擬服務(wù)器。云計算通常包括很多計算資源。

  云計算是一個新的商業(yè)模型[1-2]。它描述了計算任務(wù)到資源池的過程。資源池由大量計算機組成,從而保證各種應(yīng)用可以按需獲得計算能力、存儲空間和各種軟件服務(wù)。云計算的新穎性在于它可以提供無限的廉價存儲和計算能力,這可以使其存儲和挖掘大量的數(shù)據(jù)。

  處理高維度和大規(guī)模數(shù)據(jù)有很多方法,但請求處理通常是瓶頸。認識發(fā)現(xiàn)任務(wù)算法通常被應(yīng)用到多維未來空間廣泛搜索或最近鄰居搜索[3]。商業(yè)智能和數(shù)據(jù)倉庫可以存放T字節(jié)級以上的數(shù)據(jù)。云計算作為數(shù)據(jù)挖掘的需求正被廣泛使用。Map Reduce是一個程序框架,并且被用于處理大的數(shù)據(jù)集合。分割、調(diào)度和失敗處理以及通信等細節(jié)被Map Reduce隱藏[4]。

1 云計算

  云計算是一種計算服務(wù)而不單單是一個產(chǎn)品,它由計算資源、軟件和各種信息組成。通過網(wǎng)絡(luò)在任何地點,可以使用計算機或其他設(shè)備等終端訪問。云是一個并行和分布式系統(tǒng),由相互連接的虛擬計算機構(gòu)成,可以被動態(tài)部署,并作為一個或多個統(tǒng)一的計算資源呈現(xiàn)出來。云計算基于服務(wù)運營商和用戶簽訂的服務(wù)等級協(xié)議提供服務(wù)。

  數(shù)據(jù)連接緊密度的增長和數(shù)據(jù)量增長導(dǎo)致許多運營商和部分數(shù)據(jù)中心使用大的、可以動態(tài)均衡負載的基礎(chǔ)設(shè)施作為云計算平臺。通過按需地在服務(wù)器上分布和復(fù)制數(shù)據(jù),資源利用率顯著提高。

  “云”是一個彈性的資源執(zhí)行環(huán)境,涉及到多個利益方,并能提供可以計量的服務(wù)。這些服務(wù)可以分為多個粒度級別。換言之,本文中所講的云是基礎(chǔ)平臺,可以在多種資源上面以各種形式執(zhí)行。從而提供資源和服務(wù)的管理性、彈性和系統(tǒng)平臺獨立性等能力。

2 數(shù)據(jù)挖掘技術(shù)

  目前有幾種主要的數(shù)據(jù)挖掘技術(shù)已經(jīng)開發(fā)并應(yīng)用到數(shù)據(jù)挖掘項目中。包括關(guān)聯(lián)規(guī)則、分類、聚類、預(yù)測和序列模式。下面將簡要地介紹這些數(shù)據(jù)挖掘技術(shù)的例子。

  (1)關(guān)聯(lián)規(guī)則

  關(guān)聯(lián)規(guī)則是一種最好的已知的數(shù)據(jù)挖掘技術(shù)。對關(guān)聯(lián)規(guī)則挖掘的研究可分為兩種類型,一種是Apriori算法研究,一種是頻繁模式增長算法研究[5](FP-growth增長等)。在關(guān)聯(lián)規(guī)則中,一種模式的發(fā)現(xiàn)是基于在同一個交易數(shù)據(jù)庫中特定項目與其他項目的關(guān)系。例如,該技術(shù)用于市場購物籃分析中確定什么樣的產(chǎn)品客戶經(jīng)常一起購買。基于該數(shù)據(jù)業(yè)務(wù)會有相應(yīng)的營銷活動,從而銷售更多的產(chǎn)品,創(chuàng)造更大的利潤。

  (2)分類

  分類是一種基于機器學習的經(jīng)典的數(shù)據(jù)挖掘技術(shù)。分類方法是利用數(shù)學方法實現(xiàn),如決策樹,線性規(guī)劃,神經(jīng)網(wǎng)絡(luò)和統(tǒng)計。在分類過程中,軟件可以學習如何將數(shù)據(jù)項分到不同的組中。例如,可以應(yīng)用于“給那些離開公司的員工過去的記錄應(yīng)用分類,預(yù)測當前的雇員很可能在將來離開”,在這種情況下,把員工的記錄分為兩組,“離開”、“留下”,然后,可以利用數(shù)據(jù)挖掘軟件將雇員劃分到每個組。

  (3)聚類

  聚類分析是數(shù)據(jù)挖掘技術(shù)中很有意義或有用的一種自動聚類技術(shù)。不同于分類技術(shù),聚類技術(shù)也定義了類和類中的對象,而在分類中,對象被分配到預(yù)定義的類中。以圖書館為例,在圖書館里圖書的種類有很多,如何使讀者能夠在如此廣泛的主題中找到相關(guān)主題的書目是一個很麻煩的問題。利用聚類技術(shù),使相似類型的圖書歸在一起或放在同一個書架上,通過標簽標識有意義的名稱。這樣讀者想獲取書中的主題時,只需去那個書架就可找到,而不必在整個圖書館中查找。

  (4)預(yù)測

  正如它的名字暗示的,預(yù)測是一種數(shù)據(jù)挖掘技術(shù),用于發(fā)現(xiàn)自變量之間及自變量和因變量之間的關(guān)系。例如,預(yù)測分析技術(shù),如果考慮銷售額是一個自變量,利潤可能是一個因變量,那就可以預(yù)測將來的銷售利潤,根據(jù)歷史銷售數(shù)據(jù)和利潤數(shù)據(jù),就可以得出一個用于預(yù)測盈利的回歸擬合曲線。

  (5)序列模式

  序列模式分析是一種發(fā)現(xiàn)事件間在順序上的相關(guān)性的數(shù)據(jù)挖掘技術(shù)。發(fā)現(xiàn)的模式是用于識別數(shù)據(jù)之間關(guān)系的進一步分析。

  2010年,Kawuu W. Lin等人[6]提出了一套多任務(wù)的頻繁模式挖掘的策略。通過各種模擬條件下的實驗,算法在執(zhí)行時間上表現(xiàn)出較好的性能。

  2011年,李玲娟等人[7]提出了一種在云計算環(huán)境中的關(guān)聯(lián)規(guī)則挖掘算法。該算法利用Hadoop框架平臺及MapReduce編程模型,以實現(xiàn)云計算環(huán)境下的并行挖掘為目標,給出了改進Apriori算法在Hadoop框架平臺中MapReduce編程模型上的執(zhí)行過程。算法在頻繁項集挖掘中表現(xiàn)出較好的性能和實用性。

  2011年,T.R.Gopalakrishnan Nair等人[8]提出了k-均值算法,算法通過迭代過程把數(shù)據(jù)集分為不同類別,使評價聚類性能的準則函數(shù)達到最優(yōu),且每個聚類內(nèi)緊湊,類間獨立。

3 云計算面臨的挑戰(zhàn)

  云計算作為大幅降低成本技術(shù),在受到追捧的同時也面臨著諸多挑戰(zhàn)性問題。

  (1)安全

  在使用云計算服務(wù)時,用戶往往不清楚自己數(shù)據(jù)存放的位置,這樣就會導(dǎo)致用戶對數(shù)據(jù)安全的擔心,云計算架構(gòu)于互聯(lián)網(wǎng)之上,傳統(tǒng)安全問題依然存在,如病毒、木馬的入侵、隱私信息的泄露等,新的安全問題也將浮出水面。另外,身份認證、授權(quán)與訪問控制、責任認定、安全與隱私等技術(shù)問題也都還處于探索階段。

  (2)Ad-hoc網(wǎng)絡(luò)模式

  Ad-hoc網(wǎng)絡(luò)是一個沒有有線基礎(chǔ)設(shè)施支持的移動網(wǎng)絡(luò),是一種無線多跳網(wǎng)絡(luò)。在Ad-Hoc網(wǎng)絡(luò)中,所有的節(jié)點都是由移動主機構(gòu)成的。與傳統(tǒng)的無線網(wǎng)絡(luò)相比,它不依賴于任何固定的基礎(chǔ)設(shè)施和管理中心,而是由一組自主的移動節(jié)點臨時組成,通過移動節(jié)點間的相互協(xié)作和自我組織,保持網(wǎng)絡(luò)連接,實現(xiàn)數(shù)據(jù)的傳遞。其特點是:動態(tài)變化的網(wǎng)絡(luò)拓撲結(jié)構(gòu),多條通信,較低的安全性。

  (3)管理性

  易管理性在云計算中非常重要,與傳統(tǒng)的系統(tǒng)相比,受有限的人工干涉、工作負載變化幅度大和多種多樣的共享設(shè)備這三個因素的影響,云計算中管理更加復(fù)雜。大多數(shù)情況下,沒有協(xié)助基于云的應(yīng)用開發(fā)的數(shù)據(jù)庫管理員和系統(tǒng)管理員。甚至是單一用戶的負載隨時間都會發(fā)生大幅度的變化。

  (4)龐大的規(guī)模

  現(xiàn)有的SQL數(shù)據(jù)庫不能簡單地處理放置在云中的海量數(shù)據(jù)。在存儲方面,是用不同的事務(wù)實現(xiàn)技術(shù),還是用不同的存儲技術(shù),或者二者都用來解決一些限制性問題還不確定。在這個問題上,目前在數(shù)據(jù)庫領(lǐng)域內(nèi)有很多提議。現(xiàn)有的云計算已經(jīng)開始探索一些簡單的實用性方法,但是還需要做更多的工作來融合現(xiàn)有的云計算機制中的好思想。

  (5)新的應(yīng)用場景

  預(yù)測一些需要預(yù)載大量數(shù)據(jù)集(像股票價格、天氣歷史數(shù)據(jù)以及網(wǎng)上檢索等)的服務(wù)。從私有和公共環(huán)境中獲取有用信息引起人們越來越多的注意。這就需要從結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)的異構(gòu)數(shù)據(jù)中提取出有用信息。

  (6)延遲

  延遲通常是因特網(wǎng)上的常見問題。云計算中產(chǎn)生的延遲并不是致命的,可以通過智能化設(shè)計的高性能基礎(chǔ)設(shè)施以及靈巧的應(yīng)用程序來補救。就像桌面計算機最大的瓶頸就是需要更大的硬盤和內(nèi)存,云計算中延遲的真正原因必須確定和解決。云計算既需要較高性能的集群服務(wù)器,也需要高性能的通信設(shè)備來支持。

4 結(jié)論

  數(shù)據(jù)挖掘技術(shù)的主要問題是項目集合需要空間,并且項目級操作是巨大的。如果將數(shù)據(jù)挖掘應(yīng)用于云計算環(huán)境,將會從云運營商那里按需租賃空間。這種方法解決了需要大量空間的問題。并且用戶不再需要考慮空間大小,可直接使用數(shù)據(jù)挖掘技術(shù)。

參考文獻

  [1] WEISS A. Computing in clouds[J]. ACM Networker, 2007,11(4):18-25.

  [2] BUYYA R, VENUGOPAL S. Market-oriented cloud computing: vision, hype, and reality for delivering IT services as computing utilities[C]. Proceedings of the 2008 10th IEEE International Conference on High Performance Computing and Communications, 2008: 5-13.

  [3] BOHM C, BERCHTOLD S, MICHEL U. Multidimensional index structures in relational databases[C]. in 1st International Conference on Data Warehousing and Knowledge Discovery, 1999:51-70.

  [4] DEAN J, GHEMAWAT S, USENIX. Map Reduce: simplified data processing on large clusters[C]. 6th Symposium on Operating Systems Design and Implementation, 2004:137-149.

  [5] Han J, Pei J, Yin Y.  Mining frequent patterns without candidate generation[C]. Proc. of ACM Int. Conf. on Management of data (SIGMOD), 2000:1-12.

  [6] KAWUU W LIN, LUO Y C. Efficient strategies for many-task frequent pattern mining in cloud computing environments[C]. Systems Man and Cybernetics(SMC), IEEE International Conference,2010(10):620-623.

  [7] 李玲娟,張敏.云計算環(huán)境下關(guān)聯(lián)規(guī)則挖掘算法研究[J].計算機技術(shù)與發(fā)展,2011(2):43-46.

  [8] NAIR T R G, MADHURI K L. Data mining using hierarchical virtual k-means approach integrating data fragments in cloud computing environment[C].Cloud Computing and Intelligence Systems(CCIS), IEEE International Conference, 2011(1):230-234.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 四虎最新永久免费视频| 丽娟女王25部分| 狠狠躁夜夜躁人人爽天天天天97| 国产成人免费网站在线观看| japanesehd日本护士色| 日本特黄特色免费大片| 亚洲欧洲自拍拍偷午夜色| 精品少妇人妻av无码专区| 国产成人18黄网站麻豆| 91精品国产综合久久久久久| 成人av电影网站| 久久精品免费一区二区三区 | 久久精品国产精品青草| 欧美黄色大片免费观看| 制服丝袜一区二区三区| 青草青草久热精品视频在线观看 | 99精品人妻少妇一区二区| 我两腿被同学摸的直流水 | 欧美人和黑人牲交网站上线| 伊人亚洲综合青草青草久热| 色噜噜狠狠狠狠色综合久一| 国产欧美一区二区精品久久久| 97在线视频免费播放| 小兔子被蛇用两根是什么小说| 久久久男人天堂| 最近免费中文字幕大全高清大全1| 亚洲精品动漫免费二区| 精品亚洲欧美无人区乱码| 国产一在线观看| 麻豆果冻国产91在线极品| 国产精品亚洲w码日韩中文| 99久久国产视频| 好大好硬好爽免费视频| 中文字幕日韩一区二区三区不卡 | 99久久亚洲精品无码毛片| 小仙女np高h| 中文字幕丰满伦子无码| 日本在线视频WWW鲁啊鲁| 五十路亲子中出在线观看| 欧美国产亚洲一区| 亚洲欧美日韩高清综合678|