日韩有码亚洲专区|国产探花在线播放|亚洲色图双飞成人|不卡 二区 视频|东京热av网一区|玖玖视频在线播放|AV人人爽人人片|安全无毒成人网站|久久高清免费视频|人人人人人超碰在线

數(shù)據(jù)挖掘的計(jì)算機(jī)用戶(hù)行為分析與識(shí)別

前言:本站為你精心整理了數(shù)據(jù)挖掘的計(jì)算機(jī)用戶(hù)行為分析與識(shí)別范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢(xún)。

數(shù)據(jù)挖掘的計(jì)算機(jī)用戶(hù)行為分析與識(shí)別

摘要:隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們生活及工作中不可或缺的一部分,本文通過(guò)對(duì)網(wǎng)絡(luò)用戶(hù)上網(wǎng)時(shí)所表現(xiàn)出來(lái)的行為進(jìn)行分析研究,探索其行為特征及行為模式,建立計(jì)算機(jī)用戶(hù)行為模型,利用聚類(lèi)分析技術(shù)及相關(guān)算法建立了一個(gè)計(jì)算機(jī)用戶(hù)行為分析識(shí)別系統(tǒng),通過(guò)對(duì)網(wǎng)絡(luò)用戶(hù)日志數(shù)據(jù)所表現(xiàn)出來(lái)的行為進(jìn)行預(yù)處理、模式挖掘及聚類(lèi)分析實(shí)現(xiàn)了用戶(hù)身份識(shí)別功能。并對(duì)系統(tǒng)的準(zhǔn)確率和誤差進(jìn)行了分析,最后對(duì)該模型的完善和改進(jìn)提出了若干設(shè)想。

關(guān)鍵詞:數(shù)據(jù)挖掘;K-均值聚類(lèi)分析;分析識(shí)別;行為模式

1引言

本文通過(guò)數(shù)據(jù)挖掘技術(shù)從海量的用戶(hù)網(wǎng)絡(luò)日志數(shù)據(jù)中分析用戶(hù)行為的有效特征信息,建立了用戶(hù)行為分析模型,通過(guò)ANOVA進(jìn)行了模型可行性論證,基于C#和SPSS統(tǒng)計(jì)分析軟件設(shè)計(jì)了一套計(jì)算機(jī)用戶(hù)行為分析系統(tǒng),建立了數(shù)據(jù)預(yù)處理、聚類(lèi)分析等模型,通過(guò)K-MEANS算法對(duì)用戶(hù)行為特征信息進(jìn)行分析、處理和分類(lèi),完成用戶(hù)特征識(shí)別,并對(duì)識(shí)別誤差進(jìn)行研究分析,提出了若干改進(jìn)方法,該模式的分析應(yīng)用對(duì)今后大數(shù)據(jù)的分析以及處理技術(shù)的發(fā)展具有重要意義。

2數(shù)據(jù)挖掘原理

2.1數(shù)據(jù)挖掘概念和流程

數(shù)據(jù)挖掘(DataMining),是數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(KDD)過(guò)程中的高級(jí)分析步驟,是計(jì)算機(jī)科學(xué)的跨學(xué)科子領(lǐng)域,是在海量的數(shù)據(jù)中發(fā)現(xiàn)模式的計(jì)算過(guò)程,涉及到數(shù)據(jù)庫(kù)系統(tǒng)(DataSystem)、統(tǒng)計(jì)學(xué)(Statistic)、分布式計(jì)算(Ha-doop)、并行計(jì)算(Parallel)、機(jī)器學(xué)習(xí)(MachineLearn-ing)、人工智能(ArtificialIntelligence)等多個(gè)交叉的學(xué)科[1]。數(shù)據(jù)挖掘流程如圖1[2]所示。

2.2聚類(lèi)分析原理及算法

聚類(lèi)分析是研究樣品或指標(biāo)分類(lèi)問(wèn)題的一種多元統(tǒng)計(jì)方法,類(lèi)就是指相似元素的集合。根據(jù)分類(lèi)對(duì)象的不同,聚類(lèi)分析可以分為樣品聚類(lèi)和變量聚類(lèi),在統(tǒng)計(jì)學(xué)中,樣品聚類(lèi)又被稱(chēng)為Q型聚類(lèi),是對(duì)事件或觀測(cè)量進(jìn)行聚類(lèi),而變量聚類(lèi)則被稱(chēng)為R型聚類(lèi),反映同一事物特征的變量很多,通常根據(jù)研究的問(wèn)題選擇部分變量對(duì)事物的某一方面進(jìn)行研究[4]。聚類(lèi)分析的算法可以分為劃分法(PartitioningMe-thods)、層次法(HierarchicalMethods)、基于密度的方法(density-basedmethods)、基于網(wǎng)格的方法(grid-basedmethods)、基于模型的方法(Model-BasedMet-hods)[5]。本文主要采用基于距離的劃分法,給定要構(gòu)建的分區(qū)數(shù)k,創(chuàng)建一個(gè)初始化劃分,采用迭代重定位技術(shù),通過(guò)把對(duì)象從一個(gè)組移動(dòng)到另一個(gè)組來(lái)進(jìn)行劃分。同一個(gè)簇中的對(duì)象盡可能相互接近或相關(guān),而不同的簇中的對(duì)象盡可能遠(yuǎn)離或不同。使用這種思想的算法主要有K-MEANS算法[5]和K-MEDOIDS算法[6]等。K-均值聚類(lèi)(K-MEANS)算法又被稱(chēng)為快速聚類(lèi)法,可對(duì)大量數(shù)據(jù)進(jìn)行聚類(lèi)分析,屬于非層次聚類(lèi)方法,計(jì)算量小、占用內(nèi)存少、處理速度快,非常適用于大樣本聚類(lèi)分析。

3計(jì)算機(jī)用戶(hù)行為分析模型設(shè)計(jì)

3.1模型目標(biāo)功能及整體結(jié)構(gòu)

本文主要目的是通過(guò)用戶(hù)上網(wǎng)生成的網(wǎng)絡(luò)日志數(shù)據(jù)來(lái)實(shí)現(xiàn)對(duì)計(jì)算機(jī)用戶(hù)的識(shí)別,因此對(duì)模型的設(shè)計(jì)主要考慮算法的使用以及類(lèi)別的劃分。本文使用K-均值聚類(lèi)算法對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行聚類(lèi)分析,將數(shù)據(jù)進(jìn)行不斷聚類(lèi),提取聚類(lèi)中心,直到分出用戶(hù)的具體職業(yè)以及學(xué)歷。樣本用戶(hù)職業(yè)類(lèi)別分為學(xué)生、農(nóng)村外出務(wù)工人員和產(chǎn)業(yè)、服務(wù)業(yè)工人3類(lèi),而學(xué)歷則是在后兩種職業(yè)中進(jìn)行劃分,其中產(chǎn)業(yè)、服務(wù)業(yè)工人學(xué)歷劃分包括高中、本科和大專(zhuān)3種,農(nóng)村外出務(wù)工人員學(xué)歷劃分則只包含初中和高中兩種。學(xué)歷的聚類(lèi)分析在職業(yè)劃分結(jié)束后進(jìn)行,并且在同一類(lèi)職業(yè)當(dāng)中進(jìn)行聚類(lèi)。模型整體架構(gòu)如圖3所示,模型主要分為2個(gè)模塊,包括數(shù)據(jù)預(yù)處理模塊和聚類(lèi)分析模塊。

3.2數(shù)據(jù)預(yù)處理模型

數(shù)據(jù)預(yù)處理是整個(gè)設(shè)計(jì)的基礎(chǔ),對(duì)其進(jìn)行研究需要分析出能反映用戶(hù)行為特征的屬性,完成對(duì)原始數(shù)據(jù)的處理分析,提取有價(jià)值的信息作為新的樣本分析數(shù)據(jù),這是計(jì)算機(jī)用戶(hù)行為分析與識(shí)別的前提。

3.3數(shù)據(jù)處理分類(lèi)模型

K-均值聚類(lèi)算法是一種非常簡(jiǎn)潔和高效率的聚類(lèi)算法,現(xiàn)階段的應(yīng)用是最廣泛的,因此利用此算法來(lái)完成最后的分類(lèi)模塊。通過(guò)上圖可知本設(shè)計(jì)是利用K-均值聚類(lèi)算法對(duì)預(yù)處理后的數(shù)據(jù)以及通過(guò)聚類(lèi)分析提取出的聚類(lèi)中心進(jìn)行匹配計(jì)算,主要計(jì)算預(yù)處理后的用戶(hù)行為數(shù)據(jù)和聚類(lèi)中心之間的歐式距離,比較與不同聚類(lèi)中心之間距離的大小,將用戶(hù)歸為距離最小的那一類(lèi)當(dāng)中。

4模型設(shè)計(jì)論證

聚類(lèi)分析的主要目的是通過(guò)對(duì)用戶(hù)行為數(shù)據(jù)進(jìn)行多次聚類(lèi),不斷提取聚類(lèi)中心,直到將不同職業(yè)以及學(xué)歷用戶(hù)區(qū)分開(kāi)來(lái),聚類(lèi)過(guò)程中的初始聚類(lèi)中心和最終聚類(lèi)中心結(jié)果分別如表1和表2所示。表1和表2的數(shù)據(jù)是對(duì)預(yù)處理后的數(shù)據(jù)做第一次聚類(lèi)分析時(shí)的聚類(lèi)中心結(jié)果,通過(guò)其可知最終聚類(lèi)中心相對(duì)于初始聚類(lèi)中心來(lái)說(shuō)發(fā)生了較大的變化,每次變化都是對(duì)數(shù)字進(jìn)行了一次重新聚類(lèi),直到出現(xiàn)最合適的聚類(lèi)中心,聚類(lèi)分析會(huì)在聚類(lèi)中心不再發(fā)生變化或誤差平方和局部最小時(shí)終止。在最終聚類(lèi)中心結(jié)果中,不同類(lèi)別間的聚類(lèi)中心也有一定的差異,最終聚類(lèi)中心距離結(jié)果如表3所示。通過(guò)最終聚類(lèi)中心間的距離結(jié)果可知,第二類(lèi)和第三類(lèi)之間的距離最大,第一類(lèi)和第二類(lèi)之間的距離最小,這個(gè)結(jié)果和最終聚類(lèi)中心的實(shí)際情況是符合的,說(shuō)明K值為3時(shí)的聚類(lèi)分析合理可行。在進(jìn)行聚類(lèi)分析的過(guò)程中,K-均值聚類(lèi)需要對(duì)用戶(hù)數(shù)據(jù)進(jìn)行迭代與分類(lèi)處理,在迭代過(guò)程中不斷更新聚類(lèi)中心,把觀測(cè)量分派到與之最近的以類(lèi)中心為標(biāo)志的類(lèi)中去,當(dāng)滿(mǎn)足收斂判據(jù)或迭代次數(shù)上限時(shí),迭代會(huì)停止。聚類(lèi)中心內(nèi)的更改在聚類(lèi)中心內(nèi)沒(méi)有改動(dòng)或改動(dòng)較小時(shí)達(dá)到收斂,任何中心的最大絕對(duì)坐標(biāo)更改為.000,當(dāng)前迭代為5,初始中心間的最小距離為24470.703。通過(guò)聚類(lèi)分析的迭代歷史記錄可知,第一次迭代的變化值是最大的,之后就開(kāi)始逐漸減少,直到最后第五次迭代時(shí),聚類(lèi)中心就不再發(fā)生變化,此時(shí)就完成了聚類(lèi)分析模塊中提取聚類(lèi)中心的工作,在此基礎(chǔ)上通過(guò)ANVOA表進(jìn)行模型可行性分析,統(tǒng)計(jì)量臨界值和顯著性檢驗(yàn)的大小如表5所示。通過(guò)對(duì)聚類(lèi)分析結(jié)果進(jìn)行方差分析,主要觀察其中列出F值即統(tǒng)計(jì)量臨界值和Sig.值即顯著性檢驗(yàn)的大小,從表中可以看到,各個(gè)指標(biāo)在不同類(lèi)之間的差異是非常明顯的,用戶(hù)行為有效信息類(lèi)的差異性可以滿(mǎn)足模型分類(lèi)要求,由此進(jìn)一步驗(yàn)證聚類(lèi)分析模型的有效性。

5系統(tǒng)實(shí)現(xiàn)

5.1模型功能實(shí)現(xiàn)

整個(gè)系統(tǒng)主要包括數(shù)據(jù)預(yù)處理、聚類(lèi)分析、K-均值算法處理分類(lèi)等三個(gè)模塊,系統(tǒng)實(shí)現(xiàn)主要基于C#語(yǔ)言和SPSS統(tǒng)計(jì)分析軟件來(lái)完成,將一名大學(xué)本科用戶(hù)ID為99BFDBE657AC81470256210593973290的產(chǎn)業(yè)、服務(wù)業(yè)工人數(shù)據(jù)被輸入到系統(tǒng)中,實(shí)現(xiàn)結(jié)果樣式如圖6所示。但并不是100%的用戶(hù)數(shù)據(jù)都能夠被完全準(zhǔn)確的識(shí)別出來(lái),通過(guò)非建模使用的數(shù)據(jù)對(duì)系統(tǒng)功能進(jìn)行進(jìn)一步分析驗(yàn)證,系統(tǒng)對(duì)用戶(hù)職業(yè)分類(lèi)識(shí)別的準(zhǔn)確率為55.6%,而對(duì)用戶(hù)學(xué)歷分類(lèi)識(shí)別的準(zhǔn)確率為42.5%。

5.2誤差分析

系統(tǒng)通過(guò)對(duì)網(wǎng)絡(luò)日志數(shù)據(jù)對(duì)用戶(hù)職業(yè)以及學(xué)歷的分析識(shí)別錯(cuò)誤率分別為44.4%和57.5%。產(chǎn)生誤差的因素主要有原始數(shù)據(jù)的合理有效性、聚類(lèi)算法所存在的缺陷、識(shí)別用戶(hù)時(shí)日志數(shù)據(jù)的選取等三方面。(1)原始數(shù)據(jù)的有效性。原始數(shù)據(jù)是從公開(kāi)的數(shù)據(jù)源中查找出來(lái)并應(yīng)用到對(duì)本系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)當(dāng)中,根據(jù)對(duì)數(shù)據(jù)的觀察分析,數(shù)據(jù)本身存在一定的不合理性,雖然對(duì)原始數(shù)據(jù)做了處理分析,但仍然有一定的問(wèn)題存在,比如在對(duì)用戶(hù)上網(wǎng)時(shí)所瀏覽網(wǎng)址進(jìn)行分類(lèi)時(shí),有些數(shù)據(jù)中的URL和窗口進(jìn)程存在不完整或缺失的情況,導(dǎo)致無(wú)法對(duì)用戶(hù)的上網(wǎng)行為進(jìn)行完全的統(tǒng)計(jì)分析,而且有些用戶(hù)上網(wǎng)行為較同類(lèi)用戶(hù)整體相比存在異常,無(wú)法對(duì)其進(jìn)行最終的聚類(lèi)分析,導(dǎo)致最后此類(lèi)用戶(hù)在聚類(lèi)結(jié)束時(shí)仍未被分類(lèi)出來(lái),最終對(duì)設(shè)計(jì)結(jié)果產(chǎn)生相應(yīng)的影響并增大錯(cuò)誤分析的概率。(2)K-均值聚類(lèi)算法存在的缺陷。K-均值聚類(lèi)算法主要是對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行分析,此算法中的K值需要提前設(shè)定,因無(wú)法確切知道需要分析的數(shù)據(jù)應(yīng)該劃分成幾類(lèi),所以K值的選擇很難判斷,一旦分類(lèi)不合理就有可能對(duì)最終系統(tǒng)的實(shí)現(xiàn)造成影響。同時(shí)初始聚類(lèi)中心的選擇對(duì)于聚類(lèi)的劃分也存在一定的影響。(3)識(shí)別用戶(hù)時(shí)用戶(hù)日志數(shù)據(jù)的選取。本設(shè)計(jì)中原始數(shù)據(jù)包括用戶(hù)連續(xù)28天的網(wǎng)絡(luò)行為日志,在實(shí)現(xiàn)過(guò)程中所用數(shù)據(jù)使用的是每個(gè)用戶(hù)擁有最大數(shù)據(jù)量的網(wǎng)絡(luò)日志,這種選取方法適用于對(duì)不同類(lèi)用戶(hù)的所有整體進(jìn)行分析聚類(lèi),提取用戶(hù)群體的行為模式,但對(duì)單個(gè)用戶(hù)來(lái)說(shuō),數(shù)據(jù)量再大的網(wǎng)絡(luò)日志也無(wú)法完全體現(xiàn)其所有行為特征,只有對(duì)其進(jìn)行長(zhǎng)期的分析研究才能將其行為特征最大化,所以這種選取方式對(duì)系統(tǒng)的實(shí)現(xiàn)也有一定的影響。

5.3關(guān)于改進(jìn)系統(tǒng)設(shè)計(jì)的若干設(shè)想

通過(guò)誤差分析發(fā)現(xiàn)本系統(tǒng)設(shè)計(jì)還有一定的改進(jìn)空間,為此提出以下改進(jìn)設(shè)想:(1)建立異常檢測(cè)機(jī)制,對(duì)用戶(hù)行為數(shù)據(jù)進(jìn)行分析時(shí),將異常用戶(hù)行為數(shù)據(jù)標(biāo)記出來(lái),獨(dú)立輸出相應(yīng)結(jié)果。初始聚類(lèi)中心的選取則可以通過(guò)遺傳算法來(lái)實(shí)現(xiàn)。(2)嘗試其它不同算法對(duì)用戶(hù)網(wǎng)絡(luò)日志數(shù)據(jù)進(jìn)行處理分析,比如ISODATA算法、RPCL算法等,并將其處理結(jié)果的準(zhǔn)確率與本設(shè)計(jì)中的結(jié)果準(zhǔn)確率進(jìn)行比較,選出最優(yōu)算法。(3)對(duì)用戶(hù)連續(xù)28天的網(wǎng)絡(luò)日志數(shù)據(jù)進(jìn)行處理分析取均值,作為聚類(lèi)分析所需數(shù)據(jù),進(jìn)行系統(tǒng)實(shí)現(xiàn),與本系統(tǒng)結(jié)果進(jìn)行比較,觀察準(zhǔn)確率變化情況。

6結(jié)束語(yǔ)

本文介紹了數(shù)據(jù)挖掘概念特征和聚類(lèi)分析原理,通過(guò)分析計(jì)算機(jī)用戶(hù)網(wǎng)絡(luò)日志數(shù)據(jù)建立了分析和識(shí)別模型,與以往的匹配識(shí)別不同,該模型是通過(guò)大數(shù)據(jù)分析用戶(hù)特征,利用K-means算法進(jìn)行聚類(lèi),進(jìn)而實(shí)現(xiàn)用戶(hù)識(shí)別功能。該系統(tǒng)的實(shí)現(xiàn)對(duì)于網(wǎng)絡(luò)智能化服務(wù)及大數(shù)據(jù)運(yùn)用的發(fā)展有著重要意義。然而該系統(tǒng)的識(shí)別成功率還有待提高,收集更加完善且不同類(lèi)型的數(shù)據(jù),建立異常檢測(cè)機(jī)制以及改進(jìn)更新識(shí)別算法,進(jìn)一步提高識(shí)別準(zhǔn)確率將是今后研究的重點(diǎn)。

作者:胡富增 王勇軍 單位:解放軍91404部隊(duì)

文檔上傳者

相關(guān)期刊

數(shù)據(jù)

省級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

北京市統(tǒng)計(jì)局

大數(shù)據(jù)

統(tǒng)計(jì)源期刊 審核時(shí)間1個(gè)月內(nèi)

工業(yè)和信息化部

數(shù)據(jù)法學(xué)

部級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

中國(guó)人民公安大學(xué)法學(xué)院