精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁 ? 百科知識 ?數(shù)據(jù)挖掘的功能

        數(shù)據(jù)挖掘的功能

        時間:2023-06-20 百科知識 版權(quán)反饋
        【摘要】:6.5.2 數(shù)據(jù)挖掘的功能管理層可能常常會面臨這樣的問題:新的購物廣場建在哪里會帶來更多收益?這些都是之前的分析工具所無法解決的,而各種形式的數(shù)據(jù)挖掘功能可以使這些問題迎刃而解。一般來說,可以根據(jù)數(shù)據(jù)挖掘產(chǎn)生的模式所具有的特征,將數(shù)據(jù)挖掘劃分為以下幾類:關(guān)聯(lián)分析。在滿足一定的支持度和置信度基礎(chǔ)上,關(guān)聯(lián)分析得到的規(guī)律是成立的。

        6.5.2 數(shù)據(jù)挖掘的功能

        管理層可能常常會面臨這樣的問題:新的購物廣場建在哪里會帶來更多收益?商品以何種方式進(jìn)行促銷會更吸引顧客?這些都是之前的分析工具所無法解決的,而各種形式的數(shù)據(jù)挖掘功能可以使這些問題迎刃而解。一般來說,可以根據(jù)數(shù)據(jù)挖掘產(chǎn)生的模式所具有的特征,將數(shù)據(jù)挖掘劃分為以下幾類:

        (1)關(guān)聯(lián)分析。識別發(fā)生在相同時間的事件之間的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)分析可用于解決市場“購物籃”一類的分析問題,如零售業(yè)中,關(guān)聯(lián)分析常用來識別哪些商品更可能被同時購買,多大程度上如此。

        (2)序列分析。和關(guān)聯(lián)分析類似,不過序列分析的對象是在一段時間內(nèi)發(fā)生的事件之間的時間上的先后關(guān)系或因果關(guān)系,例如重復(fù)光顧超市的顧客所購買物品之間的聯(lián)系。

        (3)分類分析。找出描述并區(qū)分?jǐn)?shù)據(jù)類或者概念的模型(或函數(shù)),然后使用這個模型預(yù)測未知對象的類別。這種方法是基于已知類型集合的基礎(chǔ)之上,將其他的數(shù)據(jù)項(xiàng)歸入這些已知類別。

        (4)聚類分析。與分類不同,聚類不知道已知數(shù)據(jù)的類標(biāo)記,它用于將數(shù)據(jù)分成簇,使得在一個簇中的數(shù)據(jù)具有很高的相似性,而與其他簇中的數(shù)據(jù)的相似度較低。

        (5)孤立點(diǎn)分析(異類分析)。數(shù)據(jù)庫中可能會包含一些數(shù)據(jù)對象,它們與大多數(shù)數(shù)據(jù)的一般行為或模型不一致,這些數(shù)據(jù)對象就成為孤立點(diǎn)。通過分析孤立點(diǎn)我們可以發(fā)現(xiàn)產(chǎn)生這些異常的原因并有所行動,例如信用卡的欺騙檢測。

        (6)演變分析。數(shù)據(jù)演變分析就是描述對象行為隨時間變化的規(guī)律或趨勢,并對其建模。

        下面我們對其中的主要任務(wù)和其相關(guān)技術(shù)進(jìn)行更加詳細(xì)地描述。

        關(guān)聯(lián)分析與序列分析

        在超市中購物時,你也許會注意到這樣一個現(xiàn)象:一個母親給孩子購買兒童溜冰鞋時,往往會在購物車中再加入一個護(hù)膝或頭盔。因?yàn)樗I的是一雙兒童溜冰鞋,那么作為一個剛開始學(xué)習(xí)溜冰的小孩,母親一定會擔(dān)心他在練習(xí)過程中摔跤。所以超市都會將溜冰鞋和各種護(hù)具放在相鄰的位置,以便顧客選購,從而提高銷售量。

        從上例中可以看出,關(guān)聯(lián)分析就是分析兩個或多個事物之間的相互關(guān)系,就是從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集之間的關(guān)聯(lián)。從商業(yè)角度講,通過關(guān)聯(lián)分析可以得到這樣的知識:“同一個交易中,一項(xiàng)物品的出現(xiàn)往往也會引起另一項(xiàng)物品的出現(xiàn)”。注意我們說的是“往往”,而不是“一定”。在滿足一定的支持度和置信度基礎(chǔ)上,關(guān)聯(lián)分析得到的規(guī)律是成立的。也就是說,它只在一定概率上服從,而不是100%服從。

        從技術(shù)層面講,關(guān)聯(lián)規(guī)則挖掘是在給定的事務(wù)數(shù)據(jù)庫中找到所有滿足最小支持度和最小置信度的形如X≥Y的規(guī)則,其中X和Y分別代表屬性集合(稱為項(xiàng)集),并且X和Y的交集非空。X≥Y的規(guī)則表示“數(shù)據(jù)庫中滿足X條件的記錄也會滿足Y條件”。

        所謂規(guī)則的支持度表示X和Y同時出現(xiàn)的概率,它用來描述該規(guī)則在數(shù)據(jù)庫中是否具有代表性,即:支持度=P(X,Y)。置信度用來表示在出現(xiàn)X的前提下出現(xiàn)Y的概率,描述規(guī)則成立的可信度。即:置信度=P(Y|X)=P(X,Y)/P(X)。用戶可以設(shè)定最小的支持度和置信度,然后通過關(guān)聯(lián)規(guī)則算法將所有滿足條件的規(guī)則挖掘出來。

        下面我們繼續(xù)用上面的實(shí)例來詳細(xì)說明關(guān)聯(lián)分析的應(yīng)用。假設(shè)你正經(jīng)營一家溜冰鞋專賣店,如何運(yùn)用關(guān)聯(lián)分析來了解商品銷售之間的關(guān)聯(lián),從而制定更完備的銷售策略呢?

        表6-5列出了近期1000筆兒童類產(chǎn)品的交易數(shù)據(jù)。每欄最后一行的數(shù)據(jù)表示這1000筆交易中涉及該欄產(chǎn)品的交易數(shù),其余的數(shù)據(jù)表示1000筆交易中同時涉及該欄產(chǎn)品和該列產(chǎn)品的交易數(shù)。例如:兒童頭盔欄最后一行的210表示1000筆交易中有210筆涉及兒童頭盔的交易;兒童護(hù)膝欄第一行的130表示1000筆交易中有130筆交易同時購買了兒童溜冰鞋和兒童頭盔。

        表6-5        關(guān)聯(lián)分析案例

        我們用X表示消費(fèi)者購買兒童溜冰鞋的事件,Y表示購買兒童護(hù)膝的事件。通過使用最后一行的數(shù)據(jù),我們可以計(jì)算出消費(fèi)者購買某種產(chǎn)品的概率。如:消費(fèi)者購買兒童溜冰鞋的概率P(X)為270/1000;購買兒童護(hù)膝的概率P(Y)為240/1000。通過使用其余行的數(shù)據(jù),我們可以計(jì)算出消費(fèi)者同時購買某兩種產(chǎn)品的概率。如:消費(fèi)者同時購買兒童溜冰鞋和兒童護(hù)膝的概率P(X,Y)為130/1000。

        假設(shè)我們在此次關(guān)聯(lián)分析中設(shè)定的最小支持度和最小關(guān)聯(lián)度分別為0.1和0.4。那么在這個實(shí)例分析中,“購買溜冰鞋,同時也購買護(hù)膝”這條關(guān)聯(lián)規(guī)則的支持度P(X,Y)就為0.13,即消費(fèi)者同時購買這兩種產(chǎn)品的概率為0.13。而規(guī)則的置信度=P(X,Y)/P(X)=0.13/0.27=0.48,即消費(fèi)者在購買溜冰鞋的基礎(chǔ)上又購買護(hù)膝的概率為0.48??梢钥闯?,實(shí)例中規(guī)則的支持度和關(guān)聯(lián)度均滿足最小條件,所以關(guān)聯(lián)規(guī)則成立,即消費(fèi)者購買溜冰鞋后也有很大可能會購買護(hù)膝。

        進(jìn)一步分析置信度的意義:從上面數(shù)據(jù)看出,某消費(fèi)者購買護(hù)膝的概率是0.24,而他購買溜冰鞋后又購買護(hù)膝的概率為0.48。這意味著,顧客購買溜冰鞋后,其購買護(hù)膝的概率也大大提高了,從0.24上升到0.48。所以作為經(jīng)營者,我們應(yīng)該努力嘗試著把護(hù)膝推銷給每一位溜冰鞋購買者,以期提高護(hù)膝的銷售量。

        現(xiàn)實(shí)生活中,像這樣能建立起關(guān)聯(lián)規(guī)則的例子還有很多。比如肯德基里的漢堡與可樂的關(guān)系,超市中牛奶和面包的關(guān)系等。除了運(yùn)用在分析兩種商品之間的聯(lián)系,關(guān)聯(lián)分析也可以分析三種或三種以上商品之間的聯(lián)系,只是數(shù)據(jù)的計(jì)算更加復(fù)雜,這里我們就不一一介紹。

        序列分析同樣是分析事件之間的聯(lián)系,但是與關(guān)聯(lián)分析有所不同,序列分析更側(cè)重于分析一段時間內(nèi)發(fā)生的事件在時間上的先后關(guān)系或因果聯(lián)系。而關(guān)聯(lián)規(guī)則只是說明了事物之間存在聯(lián)系,并沒有更進(jìn)一步指明聯(lián)系是什么類型。

        序列分析能發(fā)現(xiàn)數(shù)據(jù)中形如“在某一段時間內(nèi),顧客購買商品A,接著購買商品B,而后購買商品C,即序列A→B→C出現(xiàn)的頻度較高”之類的知識。比如,在所有購買了激光打印機(jī)的人中,半年后80%的人再購買新硒鼓,20%的人用舊硒鼓裝碳粉;在所有購買了彩色電視機(jī)的人中,有60%的人再購買DVD產(chǎn)品。當(dāng)然,序列分析同樣需要計(jì)算支持度與置信度。由于與關(guān)聯(lián)分析類似,因此我們就不再對序列分析贅述。

        分類分析

        生活中遇到煩心事,你會找一個好朋友傾訴,那么尋找好朋友就是你對周圍人群進(jìn)行分類的過程。此外,商業(yè)領(lǐng)域中分類的例子也很多,比如百貨商場可以根據(jù)客戶的歷史交易記錄及一定的分類算法將他們分為高、中、低檔商品的消費(fèi)者。確定這個分類模型后,對于新的消費(fèi)者,就可以根據(jù)這個分類規(guī)則確定其屬于高、中、低檔消費(fèi)者中的哪一類。分類工作完成后,每當(dāng)有新產(chǎn)品上市時,百貨商場可以很快確定新產(chǎn)品的潛在消費(fèi)者有哪些,并針對這些特定人群制定相應(yīng)的營銷策略。

        從上述例子中可以看出,分類分析就是找出一組能夠描述數(shù)據(jù)集合典型特征的模型(或函數(shù)),以便能夠識別未知數(shù)據(jù)的歸屬或類別的方法。要注意的是,在分類之前,數(shù)據(jù)的類別已經(jīng)存在。因此分類過程主要有兩個階段:首先給定已有的數(shù)據(jù)和類別,通過分類算法得到描述和區(qū)分?jǐn)?shù)據(jù)類別或概念的分類模型;然后,將此分類模型應(yīng)用到要進(jìn)行測試的數(shù)據(jù)上,把未來或者未知的數(shù)據(jù)劃分到若干已知類別之中。

        分類挖掘所用的分類模型可以采用多種形式加以描述輸出。其中主要的表示方法有:分類規(guī)則(IF-THEN)、決策樹(decision trees)、數(shù)學(xué)公式(mathematical formula)和神經(jīng)網(wǎng)絡(luò)等。下面我們對決策樹進(jìn)行詳細(xì)介紹,以進(jìn)一步探討分類分析的原理。

        決策樹是一個具有層次結(jié)構(gòu)的樹狀結(jié)構(gòu),它按照條件進(jìn)行分級排列,從而預(yù)測類別或預(yù)測價值,因此可以很容易地轉(zhuǎn)換為分類規(guī)則。決策樹的基本思想是選擇在某些標(biāo)準(zhǔn)下最有利于分類的屬性,并通過一系列格式為“如果……那么……”的決策法則,可以將總體劃分成組內(nèi)差異盡可能小的小組。下面我們用實(shí)例說明。

        假設(shè)我們想根據(jù)以往客戶貸款還款的情況對他們進(jìn)行分類,通過用決策樹分析哪些特征的客戶違約風(fēng)險較大,我們就可以制定接受或拒絕某客戶貸款請求的條件。要建立一個決策樹,我們首先要收集客戶的歷史還款記錄(包括貸款額、貸款拖欠額、信用積分等)和其他特征等相關(guān)數(shù)據(jù)。

        然后我們將數(shù)據(jù)輸入到?jīng)Q策樹程序中。程序會自動分析客戶的所有特征,并選擇能使小組間差異最大的特征。這里暗含的邏輯關(guān)系就是:各小組差異越大,分類就越好。例如,如果每一個貸款拖欠額百分比<50%的客戶均沒有違約現(xiàn)象,而每一個貸款拖欠額百分比≥50%的客戶均有違約現(xiàn)象,那么,程序?qū)⒂谩百J款拖欠額百分比是否<50%”這一變量來對客戶進(jìn)行分類。在這個虛擬的例子中,決策樹程序是一種完美的分類方法,因?yàn)槊恳粋€小組中完全沒有錯分的現(xiàn)象。

        更為實(shí)際的情況如圖6-12所示,圖中虛構(gòu)了一個客戶貸款數(shù)據(jù)的決策樹分析。我們?nèi)匀患僭O(shè)對客戶的分類取決于該客戶是否違約。

        圖6-12 貸款客戶的決策樹分析

        為生成這一樹形圖,決策樹分析工具分析了客戶的各種特征,接著運(yùn)用這些特征值,并以客戶是否有過違約記錄為分類基礎(chǔ),劃分出盡可能不同的小組。

        從圖6-12所示的結(jié)果來看,決策樹程序認(rèn)為最佳的第一分類標(biāo)準(zhǔn)是:客戶的貸款拖欠額百分比是否<50%。但是由圖可知,這個分類并不完美,因?yàn)闊o論貸款拖欠額百分比是否<50%,都有客戶違約。但是從圖中也可以反映出,當(dāng)客戶的貸款拖欠額百分比<50%時,其中絕大多數(shù)客戶沒有違約記錄。

        接著,決策樹程序繼續(xù)審查其他條件,將拖欠額百分比≥50%的條件繼續(xù)細(xì)分為兩組:信用積分是否達(dá)到580。通過審查這些數(shù)據(jù),我們發(fā)現(xiàn),信用積分>580且拖欠額百分比≥50%的客戶基本沒有違約記錄,而信用積分<580且拖欠額百分比≥50%的客戶大部分都有違約記錄。

        接下來,程序?qū)π庞梅e分>580的客戶進(jìn)行進(jìn)一步細(xì)分,以找到這部分客戶里不違約的更嚴(yán)格的條件。如圖顯示,當(dāng)前貸款值<1w且信用積分>580,拖欠額百分比≥50%的客戶基本沒有違約現(xiàn)象,而當(dāng)前貸款值≥1w且信用積分>580,拖欠額百分比≥50%的客戶有很大可能出現(xiàn)違約現(xiàn)象。(這里所用的數(shù)據(jù)均為假設(shè)的,沒有真實(shí)性,只是為了說明決策樹的運(yùn)用)。

        以上這些操作完成了分類分析的第一階段:即根據(jù)歷史的數(shù)據(jù)和類別,通過決策樹算法得到區(qū)分哪些客戶容易違約的分類模型,從而幫助我們確定高風(fēng)險客戶的判斷條件。將圖中所示的決策樹轉(zhuǎn)換成一系列格式為“如果…那么…”的決策準(zhǔn)則,如下:

        如果客戶貸款拖欠額百分比<50%,那么接受貸款;

        如果客戶貸款拖欠額百分比≥50%,同時

        信用積分>580,同時

        當(dāng)前貸款值<1w,那么接受貸款;

        否則,拒絕該貸款。

        建立判別規(guī)則后,接下來進(jìn)入第二階段:即將此分類模型應(yīng)用到要進(jìn)行測試的數(shù)據(jù)上,把未來或者未知的數(shù)據(jù)劃分到若干已知類別之中。當(dāng)有新客戶申請貸款時,我們就可以使用判別條件幫助決策“可以接受哪些人的貸款,而應(yīng)該拒絕哪些人的貸款。

        通過上例可以知道,分類通常還可以用于預(yù)測未知數(shù)據(jù)實(shí)例的歸屬類別(有限離散值),如一個銀行客戶的信用等級是屬于A級、B級還是C級。但在一些情況下,需要預(yù)測某數(shù)值屬性的值(連續(xù)數(shù)值),這樣的分類就被稱為預(yù)測(prediction)。盡管預(yù)測既包括連續(xù)數(shù)值的預(yù)測,也包括有限離散值的分類;但一般還是使用預(yù)測(prediction)來表示對連續(xù)數(shù)值的預(yù)測;而使用分類來表示對有限離散值的預(yù)測。

        聚類分析

        聚類分析(clustering analysis)就是按照“物以類聚”的原則把一個數(shù)據(jù)集合按照某個標(biāo)準(zhǔn)分成幾個簇的過程。其結(jié)果使得在每個簇內(nèi)部的數(shù)據(jù)按照該標(biāo)準(zhǔn)具有很高的相似性,而簇與簇之間的數(shù)據(jù)的相似性很低。

        例如,我們拿到如下一些人的身高、體重和性別的數(shù)據(jù),按照“物以類聚”的原則,根據(jù)一定的聚類規(guī)則,從身高和體重兩個維度可以把這些數(shù)據(jù)分成三組,如圖6-13所示。

        圖6-13 聚類分析示意描述

        從這個例子可以看出,聚類分析的輸入數(shù)據(jù)集是一組未標(biāo)記(沒有類別歸屬)的對象。聚類分析的目的就是根據(jù)一定的規(guī)則,對這些數(shù)據(jù)進(jìn)行分組,并用顯示或隱示的方法描述不同的類別,也就是說,聚類分析的輸出是得到若干類別及類別的描述。通過聚類分析獲得同類別歸屬的數(shù)據(jù)對象集合后,我們可以更進(jìn)一步用分類學(xué)習(xí)獲得相應(yīng)的分類預(yù)測模型(規(guī)則)。

        聚類分析與分類分析的不同之處在于:在分類中,數(shù)據(jù)事先是給出類標(biāo)記的,然后選擇分類算法對這些類進(jìn)行劃分;而進(jìn)行聚類前并不知道將要劃分成幾個組和什么樣的組,也不知道根據(jù)哪些空間區(qū)分規(guī)則來定義組。因此,分類是有指導(dǎo)的類別劃分,在若干先驗(yàn)標(biāo)準(zhǔn)的指導(dǎo)下進(jìn)行,效果好壞取決于標(biāo)準(zhǔn)選取的好壞。聚類則是沒有先驗(yàn)標(biāo)準(zhǔn),完全依靠事先的聚類原則(距離,近鄰等),進(jìn)行類別劃分,效果好壞取決于聚類原則的選取。

        聚類分析在金融、市場、銷售等領(lǐng)域中的應(yīng)用十分廣泛。比如,利用聚類分析可以有助于市場分析人員對顧客群進(jìn)行區(qū)別定位,然后根據(jù)不同特點(diǎn)的顧客群推出相應(yīng)的產(chǎn)品;又比如可以在房地產(chǎn)市場上,分別根據(jù)房屋的類型、市值、地理位置等特性對房屋進(jìn)行歸類,然后制定相應(yīng)的銷售策略進(jìn)行促銷活動。下面我們將以保險公司劃分顧客群體為例來說明聚類分析的應(yīng)用。

        假設(shè)SIA是美國最大的保險機(jī)構(gòu),有著1500多個分支機(jī)構(gòu)及400萬會員。該公司除了在常規(guī)保險業(yè)務(wù)之外還提供銀行、證券、期貨等投資業(yè)務(wù)。為了識別會員的潛在需求而提供盈利性服務(wù),也為了獲取更多的市場份額,公司決定對會員進(jìn)行聚類分析,從而了解不同類別的會員有什么樣的需求。

        銀行對18000名會員樣本進(jìn)行了聚類分析,識別了反映保險交易模式特征的15個變量,并劃分出了30個會員類型。接下來我們就將所有的400萬會員按照那15個變量計(jì)算,將他們劃分到30個會員類型中。這樣,我們就可以按類管理,對每一類會員提供不同的保險及投資建議,使顧客滿意度達(dá)到一個更高的水平。同時,也可以幫助公司識別每類會員的潛在需求而獲取更多的市場份額。另一方面,聚類分析也可以提高公司的營銷效率,聚類分析后,公司營銷更有目的性,可以將正確的產(chǎn)品推銷給正確的人,從而減少盲目推銷的成本。

        異類分析

        一個數(shù)據(jù)庫中的數(shù)據(jù)一般不可能都符合分類預(yù)測或聚類分析所獲得的模型。那些不符合大多數(shù)數(shù)據(jù)對象所構(gòu)成的規(guī)律(模型)的數(shù)據(jù)對象就被稱為異類(outlier)。以往的數(shù)據(jù)挖掘方法常常將這些異類視為噪聲而丟棄,然而在一些應(yīng)用場合中,如各種商業(yè)欺詐行為的自動檢測,這些異類的數(shù)據(jù)往往比常規(guī)數(shù)據(jù)更具有挖掘價值。因此,異類分析也是數(shù)據(jù)挖掘的重要方法之一。

        對異類數(shù)據(jù)的分析處理通常就稱為異類挖掘。數(shù)據(jù)中的異類可以利用數(shù)理統(tǒng)計(jì)方法分析獲得。它根據(jù)歷史數(shù)據(jù)獲得一個數(shù)據(jù)分布或概率模型,并使用距離度量,到其他聚類的距離很大的對象就被視為異類。另外也可以用偏差的方法來確定異類?;谄畹姆椒ㄊ峭ㄟ^考察一群對象主要特征上的差別來識別異類,而不是使用統(tǒng)計(jì)或距離度量。

        異類分析??捎脕頇z測商業(yè)欺詐行為。例如:信用卡公司記錄每個持卡人所做的每筆交易,同時也記錄信用限度,年齡,年薪和地址等信息。從持卡人大量的商品購買記錄中(包括購買的發(fā)生地點(diǎn)、購買商品類型和購買頻率等),信用卡公司可以依據(jù)各賬戶平常所發(fā)生的購買行為建立一個用戶合法交易的輪廓。當(dāng)一筆新的交易發(fā)生時,就與已構(gòu)建的交易輪廓相對比。如果該交易的特性與先前輪廓差異較大,就把該交易記為可能性欺詐。

        此外,對于一個制造型企業(yè)的生產(chǎn)部門而言,與前幾周相比,本周產(chǎn)品生產(chǎn)的合格率突然下降,就是一種異類分析。當(dāng)合格率下降幅度較大時,我們就可以利用數(shù)據(jù)挖掘工具來幫助分析產(chǎn)生這一異常情況的原因。如:某一零件與以往的供應(yīng)批貨相比,尺寸上出現(xiàn)變化。那么分析人員就可以進(jìn)一步確認(rèn)零件尺寸的變化導(dǎo)致產(chǎn)品的不良,從而可以與供應(yīng)商洽談解決方案。

        演化分析

        數(shù)據(jù)演化分析(evolution analysis)就是對隨時間變化的數(shù)據(jù)對象的變化規(guī)律和趨勢進(jìn)行建模描述。這一建模手段包括對時間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)、分類或聚類等,但與前面所述的分析不同,這類分析還包括時間序列數(shù)據(jù)分析、序列或周期模式匹配等數(shù)據(jù)分析。

        例如,演化分析的一個典型應(yīng)用是股票市場的預(yù)測。假如,你有紐約股票交易所過去幾年的主要股票市場(時間序列)數(shù)據(jù),并希望投資于高科技工業(yè)公司的股票。那么你就可以利用演化分析方法對股市主要股票交易數(shù)據(jù)(時間序列數(shù)據(jù))進(jìn)行分析,以便獲得整個股票市場和特定公司的股票演化規(guī)律,這種規(guī)律或許能夠幫助預(yù)測股票價格的未來走向,從而有效提高投資回報率。

        數(shù)據(jù)挖掘結(jié)果的評估

        一個數(shù)據(jù)挖掘系統(tǒng)在完成一個挖掘算法之后,常常會獲得成千上萬的模式或規(guī)則。關(guān)聯(lián)規(guī)則挖掘就是一個典型的例子,關(guān)聯(lián)規(guī)則挖掘算法的執(zhí)行結(jié)果,即使是對一個規(guī)模較小的數(shù)據(jù)庫,也會得到數(shù)千條關(guān)聯(lián)規(guī)則。你可能會問:“所有的這些關(guān)聯(lián)規(guī)則都是有用的嗎?”答案是否定的。實(shí)際上,對于給定的用戶,在所有產(chǎn)生的規(guī)則中,只有一小部分是有價值的。

        那么如何對數(shù)據(jù)挖掘所獲得的挖掘結(jié)果進(jìn)行有效的評估,以便最終能夠獲得有價值的模式(或知識)?這就給數(shù)據(jù)挖掘提出了許多需要解決的問題:“使一個模式有價值的因素是什么?”、“一個數(shù)據(jù)挖掘算法能否產(chǎn)生所有有價值的模式(知識)?”、“一個數(shù)據(jù)挖掘算法能否只產(chǎn)生有價值的模式(知識)?”。

        對于第一個問題,評估一個模式(知識)是否有意義通常依據(jù)以下四條標(biāo)準(zhǔn):(1)易于用戶理解;(2)對新數(shù)據(jù)或測試數(shù)據(jù)能夠確定有效程度;(3)具有潛在價值;(4)新奇的。一個有價值的模式就是知識。

        在實(shí)際應(yīng)用中,我們主要有兩種方法來評估挖掘結(jié)果是否有價值。一種是客觀度量。這種方法是用客觀數(shù)據(jù)來衡量模式(知識)的有效性。比如在關(guān)聯(lián)分析中我們提到的支持度和置信度,其中支持度表示滿足規(guī)則的樣本百分比,也即這一規(guī)則出現(xiàn)的概率,常用“X和Y同時出現(xiàn)的概率P(X,Y)”表示;而置信度表示規(guī)則的有效性,常用“在出現(xiàn)X的前提下出現(xiàn)Y的概率P(Y|X)”表示。一般我們將這些度量標(biāo)準(zhǔn)設(shè)置一個閾值,如最小支持度和最小置信度。如果規(guī)則不能滿足這些閾值,則認(rèn)為規(guī)則為噪聲、異?;虿惶袃r值;若規(guī)則能滿足閾值,則認(rèn)為規(guī)則有一定價值。

        另一種方法是反映特定用戶需要和興趣的主觀度量。例如,對于屈臣氏市場經(jīng)理來說,描述頻繁在屈臣氏購物的顧客特性的模式應(yīng)當(dāng)是有價值的;而分析雇員業(yè)績模式可能是沒有價值的。因此,主觀興趣度度量是基于用戶對數(shù)據(jù)的確信。如果所挖掘的模式與用戶所設(shè)想的模式不一致,或者能提供給用戶采取行動的策略信息,在這兩種情況下,用戶就會認(rèn)為此模式是有價值的。

        第二個問題:“數(shù)據(jù)挖掘系統(tǒng)能夠產(chǎn)生所有有價值的模式嗎?”這就涉及數(shù)據(jù)挖掘算法的完全性。期望數(shù)據(jù)挖掘系統(tǒng)產(chǎn)生所有可能的模式是不現(xiàn)實(shí)的,也是低效的。實(shí)際上,高效的做法是根據(jù)用戶提供的限制和興趣度而進(jìn)行聚焦搜索。這樣,或許能夠確保算法的完全性,而且也能獲得讓用戶認(rèn)可的模式。

        第三個問題:“數(shù)據(jù)挖掘系統(tǒng)能夠只產(chǎn)生有價值的模式嗎?”這是關(guān)于數(shù)據(jù)挖掘的優(yōu)化問題。對于用戶和數(shù)據(jù)挖掘系統(tǒng)本身來講,僅產(chǎn)生有價值的模式是非常有效的數(shù)據(jù)挖掘方式。因?yàn)檫@樣就不需要搜索所有的模式,以便識別真正有價值的模式。目前數(shù)據(jù)挖掘在這方面已經(jīng)有了進(jìn)展。然而,這種優(yōu)化仍然是個挑戰(zhàn)。

        總而言之,為了有效地發(fā)現(xiàn)對于給定用戶有價值的模式,模式興趣度度量是必需的。這種度量可以在數(shù)據(jù)挖掘這一步之后使用,根據(jù)它們的興趣度評估所發(fā)現(xiàn)的模式,過濾掉不感興趣的那些。更重要的是這種度量可以用來指導(dǎo)和限制發(fā)現(xiàn)過程,剪去模式空間中不滿足預(yù)先設(shè)定的興趣度限制的子集,改善搜索性能。

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋