精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁(yè) ? 百科知識(shí) ?數(shù)據(jù)挖掘的定義

        數(shù)據(jù)挖掘的定義

        時(shí)間:2023-06-20 百科知識(shí) 版權(quán)反饋
        【摘要】:傳統(tǒng)的OLTP可以認(rèn)為回答了“是什么”這個(gè)問(wèn)題,而OLAP則是在“為什么”上進(jìn)行了努力。與OLAP不同,數(shù)據(jù)挖掘是數(shù)據(jù)驅(qū)動(dòng)的,它是在不基于任何假設(shè)的前提下,通過(guò)對(duì)數(shù)據(jù)的分析,挖掘出數(shù)據(jù)中潛在的模式,得到最有價(jià)值的規(guī)律。在進(jìn)行銀行信用風(fēng)險(xiǎn)調(diào)查時(shí),如果使用OLAP,分析人員必須首先設(shè)定一些假設(shè)條件,如高負(fù)債低收入的人有信用風(fēng)險(xiǎn),分析人員可以利用OLAP,通過(guò)對(duì)有關(guān)數(shù)據(jù)進(jìn)行分析來(lái)驗(yàn)證或推翻這個(gè)假設(shè)。

        6.5.1 數(shù)據(jù)挖掘的定義

        由于數(shù)據(jù)庫(kù)技術(shù)的飛速發(fā)展,企業(yè)決策者在決策過(guò)程中經(jīng)常面臨著這樣一個(gè)問(wèn)題:一方面,企業(yè)能夠比較容易地獲得和存儲(chǔ)大量的業(yè)務(wù)數(shù)據(jù);另一方面,存儲(chǔ)于數(shù)據(jù)庫(kù)中且仍在快速增長(zhǎng)的龐大數(shù)據(jù),已遠(yuǎn)遠(yuǎn)超過(guò)人類(lèi)的處理和分析理解能力。數(shù)據(jù)挖掘(Data Mining,簡(jiǎn)稱(chēng)DM)技術(shù)的出現(xiàn),有效地解決了這一難題,因?yàn)樗梢詮拇罅繑?shù)據(jù)中挖掘或抽取出有用的知識(shí)。

        數(shù)據(jù)挖掘,又稱(chēng)為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(Knowledge Discovery from Database,簡(jiǎn)稱(chēng)KDD),它是一個(gè)從大量數(shù)據(jù)中抽取挖掘出未知的、有價(jià)值的模式或規(guī)律等知識(shí)的復(fù)雜過(guò)程。整個(gè)知識(shí)發(fā)現(xiàn)的過(guò)程如圖6-11所示,主要步驟有:

        圖6-11 知識(shí)發(fā)現(xiàn)過(guò)程

        數(shù)據(jù)清洗,其作用就是清除數(shù)據(jù)噪聲和與挖掘主題明顯無(wú)關(guān)的數(shù)據(jù);

        數(shù)據(jù)集成,其作用就是將來(lái)自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)組合到一起;

        數(shù)據(jù)轉(zhuǎn)換,其作用就是將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲(chǔ)形式;

        數(shù)據(jù)挖掘,它是知識(shí)發(fā)現(xiàn)的一個(gè)基本步驟,其作用就是利用智能方法挖掘數(shù)據(jù)模式或規(guī)律知識(shí);

        模式評(píng)估,其作用就是根據(jù)一定評(píng)估標(biāo)準(zhǔn)(interesting measures)從挖掘結(jié)果篩選出有意義的模式知識(shí);

        知識(shí)表示,其作用就是利用可視化和知識(shí)表達(dá)技術(shù),向用戶(hù)展示所挖掘出的相關(guān)知識(shí)。

        可見(jiàn),數(shù)據(jù)挖掘僅僅是整個(gè)知識(shí)發(fā)現(xiàn)過(guò)程中的一個(gè)重要步驟,但由于目前工業(yè)界、媒體、數(shù)據(jù)庫(kù)研究領(lǐng)域中,“數(shù)據(jù)挖掘”一詞已被廣泛使用并被普遍接受,因此本書(shū)也廣義地使用“數(shù)據(jù)挖掘”一詞來(lái)表示整個(gè)知識(shí)挖掘過(guò)程,即數(shù)據(jù)挖掘就是一個(gè)從數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息資源庫(kù)的大量數(shù)據(jù)中發(fā)掘出有趣的知識(shí)。

        數(shù)據(jù)挖掘的特點(diǎn)

        在企業(yè)決策過(guò)程中,管理人員通常會(huì)有很多信息需求,比如,首先他需要了解商務(wù)過(guò)程中發(fā)生了什么?接下來(lái)要了解它為什么發(fā)生?顧客和市場(chǎng)的行為是怎樣的?最后還要了解可以做什么,即采取什么樣的行動(dòng)。傳統(tǒng)的OLTP可以認(rèn)為回答了“是什么”這個(gè)問(wèn)題,而OLAP則是在“為什么”上進(jìn)行了努力。但是隨著問(wèn)題的復(fù)雜程度越來(lái)越高,“怎么辦”就成為高層管理人員的核心問(wèn)題了。

        OLAP是由用戶(hù)驅(qū)動(dòng)的,一般是由分析人員預(yù)先設(shè)定一些假設(shè),然后使用OLAP工具去幫助驗(yàn)證這些假設(shè),它提供了可使分析人員很方便地進(jìn)行數(shù)據(jù)分析的手段。但是,在大規(guī)模的數(shù)據(jù)中,如果僅是根據(jù)某個(gè)或是幾個(gè)邏輯假設(shè)來(lái)進(jìn)行驗(yàn)證的話(huà),就可能會(huì)喪失對(duì)一些潛在的而事先未知的模式進(jìn)行檢驗(yàn)的機(jī)會(huì),這樣就不會(huì)得到新穎的模式了。與OLAP不同,數(shù)據(jù)挖掘是數(shù)據(jù)驅(qū)動(dòng)的,它是在不基于任何假設(shè)的前提下,通過(guò)對(duì)數(shù)據(jù)的分析,挖掘出數(shù)據(jù)中潛在的模式,得到最有價(jià)值的規(guī)律。

        下面,我們通過(guò)一個(gè)例子說(shuō)明兩者的區(qū)別。在進(jìn)行銀行信用風(fēng)險(xiǎn)調(diào)查時(shí),如果使用OLAP,分析人員必須首先設(shè)定一些假設(shè)條件,如高負(fù)債低收入的人有信用風(fēng)險(xiǎn),分析人員可以利用OLAP,通過(guò)對(duì)有關(guān)數(shù)據(jù)進(jìn)行分析來(lái)驗(yàn)證或推翻這個(gè)假設(shè)。而對(duì)于使用數(shù)據(jù)挖掘來(lái)說(shuō),并不需要做出特別的假設(shè),算法會(huì)找出對(duì)銀行信用風(fēng)險(xiǎn)有影響的因素,而且還有可能發(fā)現(xiàn)按照常規(guī)思維認(rèn)為不可能的一些影響因素,如年齡、地區(qū)或者某些因素的某種組合。

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋